让速度与精度同在:全面解决RL中的训推不一致问题


文档摘要

让速度与精度同在:全面解决 RL 中的训推不一致问题 TL;DR:我们系统性研究了 LLM-RL 中的“训练-推理不匹配"问题——一种由 Rollout 引擎与训练引擎之间的数值不一致所导致的、可能威胁训练稳定性的现象。我们介绍了 slime 框架中实现的两种全面解决方案:Truly On Policy 训练(通过后端对齐实现比特级精度)和算法缓解(通过 TIS/MIS 进行修正)。尽管 slime 在实践中表现出色且稳定,我们仍然为更广泛的 RL 社区提供这些强大的工具,以确保正确性和效率。


发布者: 作者: 转发
评论区 (0)
U