3.2.1 结构清洗:去盐、中和、去片段


文档摘要

3.2.1 结构清洗:去盐、中和、去片段 在化学信息学与计算药物发现的底层数据工程中,“结构清洗”从来不是一项优雅的仪式,而是一场沉默却决定成败的战役。它不发生在光鲜的模型训练环节,也不出现在引人注目的分子生成结果里;它蛰伏于SMILES字符串的第一行解析之后、RDKit分子对象构建之前、图神经网络输入张量生成之始——那里堆叠着成千上万条被数据库导出脚本粗暴截断的片段、被质谱采集软件自动添加的钠钾加合物、被化学家手绘时无意保留的抗衡离子。这些“杂质”不会报错,却会系统性扭曲分子表征的空间拓扑、污染药效团识别的几何约束、瓦解构效关系建模的因果链条。当一篇顶刊论文宣称其模型在Clintox数据集上AUC达0.92,而你复现时仅得0.


发布者: 作者: 转发
评论区 (0)
U