扩展OpenRLHF的推理引擎

文档摘要

扩展 OpenRLHF 的推理引擎众所周知，在很长一段时间，OpenRLHF 都以 vllm 作为主要的推理引擎，而我希望能够将 SGLang 接入其中，所以这个日志主要记录了这一开发历程。虽然这事情已经做了好几周了，但真的一路都是大坑。之前在 SGLang 下踩过的坑已经详细阐述过了，这里 ref 一下： Latency optimization for weight updates：一次对效率的 debug 过程，同样刊载于记一次对 SGLang weight update latency 的优化。 Quick Start OpenRLHF 的文档默认用户都比较理解 RLHF 的流程，所以很多地方写的不算入门，对我这种不甚理解 RLHF 的人就比较痛苦，仅仅跑起来就遇到了不少坑。