MakeExperience


文档摘要

Make Experience 经过了漫长的战线,我们终于分析完了 rollout 部分的逻辑。我们接着分析 make experience 部分的逻辑。 Make Experience 源码 这一部分的操作还是很好读懂了,非常 standard: 通过 或 计算 trajectory 的 reward。verl 支持各式各样的 reward,不单单是 reward model。 重算 behaviour policy 的 log probabilities: 使用 来重算 log probs。这里原因在 part 1 讲述 importance sampling 的部分也阐述过了。


发布者: 作者: 转发
评论区 (0)
U