启用 verl 的 agent loop feature Quick Start 简单来说,目前只需要修改两处配置即可启用 agent loop feature: 在启动训练的 bash 脚本中加入 并确保 ; 在数据集处理脚本中对数据集新增一列 ,在 中补充即可。 我们接下来提供一套逐步的复现过程:这会依赖于最新的 verl 和最新版本的 sglang。注意到 verl 虽然在 还在依赖 sglang 0.4.6.post5,但这是因为 verl 里面的 transformers 依赖被 qwen2.5 vl 在 flash-attn 新版上的 bug block 住了。