6.4 人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 第六章:大模型微调与指令学习:6.4 人类反馈的强化学习(RLHF)详解 不符合人类偏好: 模型可能生成在技术上正确,但冗长、无趣或不符合特定风格的文本。 有害或不安全内容: 尽管预训练数据经过筛选,模型仍有可能生成带有偏见、歧视性、甚至有害的言论。 与人类意图不一致: 模型可能曲解指令,或者在理解指令后,其输出结果并非人类真正期望的。 6.4.1 RLHF 的核心思想与流程 RLHF 的核心思想是将人类的判断力引入到模型的训练循环中,使其能够学习到更细致、更符合人类价值观的偏好。