A Brief Code Walkthrough of slime 简介 slime 是专为强化学习大规模训练设计的 LLM 后训练框架。 核心能力 高性能训练: 通过 Megatron-LM 提供分布式训练能力,支持 Dense 和 MoE 模型 灵活数据生成: 通过 SGLang 引擎和自定义接口,实现任意复杂的数据生成流程 异步训练: 支持训练和推理的异步执行,显著提升 GPU 利用率 项目链接 项目地址: https://github.