从 tokenizer 视角来分析 Agentic 多轮训练的复杂性 【感谢来自领英的 Yanbin Jiang 老师对 verl SGLang multi-turn RL 的重构。本文直接来自他的英文原文,由我代为翻译总结。】 我们最近花了两个星期为 verl 重构 mutli-turn RL 的 attention mask 以及 fast tokenizer。有趣的是,乍一想,我们可能都不会认为这是什么不平凡的事情,,但看似简单的重构最终却暗藏许多门道。通过多次迭代,我们最终得到了一个解决方案,它既健壮又灵活,可供 verl 用户使用。我们在此分享其中的一些心思。