2.3.1 连续批处理（Continuous Batching）

文档摘要

2.3.1 连续批处理（Continuous Batching）在大模型推理服务的工程实践中，我们常被一个问题反复叩问：为什么一个吞吐量高达 200 tokens/s 的 LLM 推理引擎，在真实业务流量下却只能稳定支撑每秒 15 个并发请求？为什么 GPU 利用率曲线像心电图一样剧烈震荡，峰值时冲上 92%，谷底却跌至 18%？为什么用户等待时间的 P99 值总在 3.2 秒和 11.7 秒之间无规律跳变？——这些表象背后，藏着一个被低估、被简化、甚至被误读的核心机制：批处理（Batching）不是静态的“攒够 N 个请求再一起跑”，而是一场持续演化的、与请求到达节奏、序列长度分布、显存水位、计算延迟深度耦合的实时调度博弈。