6.4[WIP] 偏好对齐


文档摘要

6.4 通过强化学习进行偏好对齐 在我们进入强化学习的细节之前,让我们先看看它的起源。强化学习(Reinforcement Learning,简称RL)其实并不是什么新鲜事物。它的理论基础可以追溯到20世纪初的行为心理学,尤其是Edward Thorndike和B.F. Skinner对于动物学习的研究。Thorndike提出了“效果律”,即如果一个行为带来积极的结果,那么这种行为重复发生的概率会增加。Skinner则进一步发展了这种思想,提出操作性条件作用学说,通过奖励和惩罚来塑造行为。 计算机科学领域的强化学习是从这些心理学原理生发出来的。


发布者: 作者: 转发
评论区 (0)
U