RL 系统深思:深入理解权重更新机制 因为工作需要,最近终于得空能够再次深入去学习思考主流 RL 框架的系统设计。我们希望能够通过一系列文档分享我们的思考,也希望能够得到大家的反馈,和志同道合的朋友一同打造更好的开源 RLHF 框架。我们将这系列文章称为 RL 系统深思。本文是这系列的第一篇,重点讨论各类权重更新机制。本文首先分析 verl 这种 co-locate 策略下的权重更新方式,也是我自己第一次从头到尾理解了基于 handle tuple 重建 tensor 来实现的权重更新。接着,我们会剖析 slime 框架下的权重更新模式,重点分析其独出心裁的桶更新策略。最后,我们横向对比三种权重更新方式,浅浅分享我个人的一些想法,欢迎大家批评指正。