7.2.1 In-flight Batching(连续批处理) 在大模型推理服务的工程实践中,我们常被一个问题反复叩问:当用户请求如潮水般涌来,而GPU显存却如孤岛般有限,如何让每一次 都榨干算力、不让一个字节的显存闲置?如何让等待中的请求不沦为“静默的债务”,而成为下一轮计算的“活跃资产”?答案不在更贵的硬件里,而在调度的智慧中——In-flight Batching(连续批处理),正是这道问题最锋利的解法。 它不是简单的“把多个请求塞进一个batch”,而是一套动态感知、实时重构、带状态演化的内存与计算协同机制。它拒绝静态批处理的僵化,也超越传统动态批的粗粒度聚合;它让请求在抵达与完成之间持续“飞行”,在GPU显存中以可变长度、异构结构、渐进解码的方式共存共生。