让速度与精度同在：全面解决RL中的训推不一致问题

文档摘要

让速度与精度同在：全面解决 RL 中的训推不一致问题 TL;DR：我们系统性研究了 LLM-RL 中的“训练-推理不匹配"问题——一种由 Rollout 引擎与训练引擎之间的数值不一致所导致的、可能威胁训练稳定性的现象。我们介绍了 slime 框架中实现的两种全面解决方案：Truly On Policy 训练（通过后端对齐实现比特级精度）和算法缓解（通过 TIS/MIS 进行修正）。尽管 slime 在实践中表现出色且稳定，我们仍然为更广泛的 RL 社区提供这些强大的工具，以确保正确性和效率。