PPO 中 GAE 的分 chunk 并行计算(基于 slime 的实现) 对应知乎原文:《PPO 中 GAE 的分 chunk 并行计算》(https://zhuanlan.zhihu.com/p/1975237289425798560) 对应代码: PR #850 — Chunk-Scan GAE TL;DR 这篇文章中,作者围绕 slime 框架里的 PPO + GAE 做了一次性能改造: 背景:在 agentic RL 场景里,在序列超长的时候,slime 原本的 GAE 计算是按 sample 分批串行从尾部到头扫一遍。而这将直接变成训练瓶颈。