7.2.3 人工智能驱动的微生物发现:基于语言模型(如MicrobeBERT)的基因组-表型关联预测 在微生物组学的深水区,我们正站在一场静默革命的临界点上——不是靠显微镜放大视野,而是用语言模型解码基因组的“语法”。你有没有想过:一段长度超过400万碱基对的大肠杆菌基因组,其本质是否真的不同于一篇结构严谨的英文长文?它有“词”(k-mer、ORF、启动子)、有“句法”(操纵子结构、调控模块)、有“语义”(代谢通路丰度、抗生素耐药表型、宿主定植能力),甚至存在跨菌种的“通用语义场”——比如,所有编码β-内酰胺酶的基因序列,在功能空间中必然彼此靠近,无论它们来自铜绿假单胞菌还是肺炎克雷伯菌。