8.3.2 分子语言模型 (如 MolFormer, ChemBERTa) 在化学信息学的深水区航行,我们早已告别了“分子即图、性质即标签”的朴素范式。当SMILES字符串第一次被当作序列输入Transformer时,没人料到,这条看似简单的映射路径,竟会撬动整个计算化学建模范式的地壳——不是渐进式改良,而是结构性重铸。MolFormer与ChemBERTa,这两个名字如今常被并列提及,仿佛一对孪生模型;但若掀开它们的参数表与训练日志,便会发现:一个在原子级注意力中雕琢键序的微妙相位,另一个则在子结构语义空间里反复校准官能团的上下文权重。它们不是同一枚硬币的两面,而是两条殊途同归却路径迥异的技术长征。 我们不谈“大模型很厉害”,也不复述论文摘要里的宏观愿景。