verl参数速览


文档摘要

verl 参数速览 感谢 verl 团队的辛勤开发,新 feature 上的都来不及学习 由于参数众多,我们很难保证每个参数的理解都是绝对正确的,但是都是经过我们反复检查。我们将这份参数速览分享给社区,希望对大家有所帮助。整个手册的参与者有: Ji Li(蚂蚁),Zhuoran Yin(CMU),Changyi Yang(CMU),Chengxi Li(CMU),Xinpeng Wei(Amazon),Chenyang Zhao(Amazon) 也感谢 verl 团队的答疑。 Batch Size 参数名称 | 详细解释 | 作用:定义了单次训练发送给 Rollout Engine 的样本数量,也即这是在每个 PPO 迭代开始时,从训练数据集中采样的提示 (Prompt)数量。


发布者: 作者: 转发
评论区 (0)
U