verl Multi-turn Code Walk Through(Part 1) 承蒙社区厚爱,Agentic RL 如火如荼,我们 SGLang RL 小组的工作也在夜以继日。考虑到领域令人恐惧的发展速度,社区巨大的二次开发需求,我们选择以 verl 出发,分析其 end to end mutli-turn RL 训练的全过程。整体上,我们希望覆盖所有重要的 class 以及函数,更细粒度的代码不再展开。我们的写作风格希望能够 follow SGLang 的 code-walk-through: SGLang Code Walk Through 为了前后内容的一致性,我们基于 76f63cffa5 的 commit 进行分析。