8.3.1 化学文本与结构的联合预训练

文档摘要

8.3.1 化学文本与结构的联合预训练在化学人工智能的演进长河中，我们曾长久地困于一种“双语失语”——一边是分子图、SMILES、InChI、3D构象这些精确却冰冷的结构语言；另一边是文献摘要、实验记录、专利权利要求、教科书段落这些富含语义却模糊歧义的自然语言。二者之间横亘着一道沉默的鸿沟：文本模型读不懂原子键角，结构模型写不出反应机理。直到2023年，当MolT5首次将SMILES序列与PubMed摘要联合掩码建模，当ChemGPT开始用InChIKey生成合成路线描述，当Graphormer-LLM把分子图的邻接矩阵直接喂进Transformer的嵌入层——我们才真正意识到：化学大模型的破壁点，不在单模态的极致堆叠，而在跨模态表征的深度耦合。 8.3.