第九章 强化学习 Hi 大家好,欢迎来到新的篇章--强化学习篇。 在之前的章节中,我们见证了大语言模型如何通过预训练获得海量知识,并通过指令微调来学习遵循指令。然而,一个核心问题依然存在:如何让模型的输出不仅正确,而且更安全、更无害、更符合人类的价值观和偏好? 这正是强化学习大展身手的舞台。它不满足于让模型仅仅“模仿”已有的答案,而是赋予它一种通过试错和反馈来自主探索更优解的能力。这意味着我们能够通过定义“奖励”来引导模型生成“更符合我们偏好”的文本序列。 然而,将过去经典的强化学习算法应用于千亿参数的大模型时,我们面临着计算开销的难题。