MakeExperience

文档摘要

Make Experience 经过了漫长的战线，我们终于分析完了 rollout 部分的逻辑。我们接着分析 make experience 部分的逻辑。 Make Experience 源码这一部分的操作还是很好读懂了，非常 standard：通过或计算 trajectory 的 reward。verl 支持各式各样的 reward，不单单是 reward model。重算 behaviour policy 的 log probabilities: 使用来重算 log probs。这里原因在 part 1 讲述 importance sampling 的部分也阐述过了。