OnlineDPOinTRL


文档摘要

OnlineDPO in TRL OnlineDPO 的核心组件 Policy Model(策略模型):被训练的模型 Reference Model(参考模型):固定的基准模型,通常是 Policy Model 的冻结副本 评估组件 (二选一): Reward Model(奖励模型):评分模型,为每个生成结果打分 Judge(判断器):比较器,比较两个生成结果并选出更好的一个 计算核心公式 OnlineDPO的核心是最大化被选中回复相对于被拒绝回复的概率比。


发布者: 作者: 转发
评论区 (0)
U