3.2.3.1 强化学习框架:Reward Modeling + PPO微调 3.2.3.1 强化学习框架:Reward Modeling + PPO微调 奖励模型训练中的偏好数据对齐陷阱与KL散度正则化实战调优 在基于人类反馈的强化学习(RLHF)流水线中,奖励建模(Reward Modeling)与近端策略优化(PPO)微调构成了核心闭环。许多团队在部署这一流程时,常陷入一种“看似合理却效果诡异”的困境:奖励模型在验证集上表现优异,PPO训练过程也看似稳定收敛,但最终生成的文本质量却远不如预期——甚至出现语义退化、重复啰嗦或完全偏离任务目标的现象。问题往往不在代码逻辑错误,而在于奖励信号与语言先验分布之间未被显式约束的冲突。