6.3.2 批处理(Batch Processing)与连续批处理(Continuous Batching) 6.3.2 批处理与连续批处理 在构建高性能大语言模型(LLM)推理系统的征途中,我们不可避免地会遇到一个核心矛盾:GPU 极高的并行计算能力与推理请求天然的串行特性之间的错位。当我们谈论“性能增强”时,本质上是在谈论如何填满那些昂贵的 GPU 算力单元,不让它们在等待内存数据传输的间隙中空转。批处理技术正是解决这一矛盾的基石,而连续批处理则是这一技术演进中的高光时刻。作为一名在一线摸爬滚打过的工程师,我深知这两者之间的差异不仅仅是理论上的迭代,更是吞吐量成倍提升的关键。 从静态批处理到动态的困境 早期的推理系统往往采用最直观的静态批处理。