2.3.1 连续批处理(Continuous Batching) 在大模型推理服务的工程实践中,我们常被一个问题反复叩问:为什么一个吞吐量高达 200 tokens/s 的 LLM 推理引擎,在真实业务流量下却只能稳定支撑每秒 15 个并发请求?为什么 GPU 利用率曲线像心电图一样剧烈震荡,峰值时冲上 92%,谷底却跌至 18%?为什么用户等待时间的 P99 值总在 3.2 秒和 11.7 秒之间无规律跳变?——这些表象背后,藏着一个被低估、被简化、甚至被误读的核心机制:批处理(Batching)不是静态的“攒够 N 个请求再一起跑”,而是一场持续演化的、与请求到达节奏、序列长度分布、显存水位、计算延迟深度耦合的实时调度博弈。