verlsglangmulti-turnoversample


文档摘要

verl sglang multi-turn over sample 快速复现 创建新的 docker(如果熟悉这套安装,可以跳过): 使用前需要配置好 ,参考这个过程。 进入 docker 后,可以查看被映射的环境变量: 以后每次从 docker 里面 exit 出来,再用这个指令可以重启: 基于源码安装 verl-sglang 配置 python 环境: 安装 verl-sglang: 测试 gsm8k: 测试 dapo: 设计思路和具体实现 基于这个 commit:b979a73e358313afafab5db512cd5ae0009ccac0 设计思路已经讨论了非常多次了,为了解决 long tail 问题,采用 over sample 是非常常见的策略。


发布者: 作者: 转发
评论区 (0)
U