扩展 OpenRLHF 的推理引擎 众所周知,在很长一段时间,OpenRLHF 都以 vllm 作为主要的推理引擎,而我希望能够将 SGLang 接入其中,所以这个日志主要记录了这一开发历程。虽然这事情已经做了好几周了,但真的一路都是大坑。之前在 SGLang 下踩过的坑已经详细阐述过了,这里 ref 一下: Latency optimization for weight updates:一次对效率的 debug 过程,同样刊载于记一次对 SGLang weight update latency 的优化。 Quick Start OpenRLHF 的文档默认用户都比较理解 RLHF 的流程,所以很多地方写的不算入门,对我这种不甚理解 RLHF 的人就比较痛苦,仅仅跑起来就遇到了不少坑。