从tokenizer视角来分析Agentic多轮训练的复杂性

文档摘要

从 tokenizer 视角来分析 Agentic 多轮训练的复杂性【感谢来自领英的 Yanbin Jiang 老师对 verl SGLang multi-turn RL 的重构。本文直接来自他的英文原文，由我代为翻译总结。】我们最近花了两个星期为 verl 重构 mutli-turn RL 的 attention mask 以及 fast tokenizer。有趣的是，乍一想，我们可能都不会认为这是什么不平凡的事情，，但看似简单的重构最终却暗藏许多门道。通过多次迭代，我们最终得到了一个解决方案，它既健壮又灵活，可供 verl 用户使用。我们在此分享其中的一些心思。