6.4 人类反馈的强化学习（RLHF）

文档摘要

6.4 人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）第六章：大模型微调与指令学习：6.4 人类反馈的强化学习（RLHF）详解不符合人类偏好: 模型可能生成在技术上正确，但冗长、无趣或不符合特定风格的文本。有害或不安全内容: 尽管预训练数据经过筛选，模型仍有可能生成带有偏见、歧视性、甚至有害的言论。与人类意图不一致: 模型可能曲解指令，或者在理解指令后，其输出结果并非人类真正期望的。 6.4.1 RLHF 的核心思想与流程 RLHF 的核心思想是将人类的判断力引入到模型的训练循环中，使其能够学习到更细致、更符合人类价值观的偏好。