第3章:化学数据来源、管理与预处理 第3章:化学数据来源、管理与预处理 ——一场静默却决定成败的范式革命 我们正站在一个悖论的中央。 一边,是化学科学前所未有的繁荣:AlphaFold2 解锁了蛋白质结构预测的黑箱,生成式AI已能从寥寥数句描述中逆向设计具有特定光响应特性的有机分子;深度强化学习驱动的自动化合成平台,在闭环中完成“设计—模拟—合成—测试—迭代”仅需72小时;而全球每年新增的化合物注册数已突破2亿——这个数字,比人类有文字记载以来所知的所有化学物质总和还要多出三倍。 另一边,是令人不安的沉默:超过68%的计算化学研究无法被独立复现;近半数发表于高影响力期刊的QSAR模型,在跨数据集验证时性能断崖式下跌;