8.2.2 增强学习 (Reinforcement Learning) 优化目标分子 在分子设计的浩瀚星图中,传统方法如同手持罗盘的航海者——依赖经验、试错与已知路径,在已知化学空间的近岸反复逡巡。而生成式化学的崛起,则为我们锻造了一艘能自主规划航路、逆风校准、动态调舵的智能帆船。当这艘船驶入“目标导向分子优化”的深水区,强化学习(Reinforcement Learning, RL)便不再是教科书里抽象的马尔可夫决策过程,而是一套可部署、可调试、可微分、可工业落地的分子结构编译器:它不生成随机分子,而是以目标性质为引力中心,将SMILES字符串的离散语法、分子图的拓扑约束、物理化学性质的连续梯度,全部编织进一个端到端可导通的策略优化环路中。