3.2 数据质量与标准化 (Data Curation) 3.2 数据质量与标准化(Data Curation):化学信息学的“分子语法校正器” 在化学信息学的宏大叙事中,数据从来不是沉默的原料——它是会呼吸、会变形、会说谎的活体语言。当我们从第3章开篇的宏观图景中俯瞰“化学数据来源、管理与预处理”这一疆域时,不难发现:上游的数据采集如同开凿矿脉,下游的建模与预测恰似冶炼精钢;而居于二者之间、看似静默却决定全局成败的,正是数据质量与标准化——它不是流水线末端的质检印章,而是贯穿整个知识转化链条的分子级语法校正器。 试想这样一个场景:某团队基于ChEMBL中收录的12万条EGFR抑制剂活性数据训练QSAR模型,交叉验证R²高达0.89;