1.2.2 关键术语解析(PagedAttention、连续批处理等) 在大语言模型推理优化的战场上,PagedAttention 和连续批处理(Continuous Batching)早已不是论文里遥不可及的构想——它们是今天你部署一个 70B 模型时,GPU 显存能否撑住、首 token 延迟能否压到 80ms、吞吐量能否突破 120 tokens/sec 的决定性技术杠杆。我曾在某金融级对话平台上线 Llama-3-70B 的过程中,因未正确配置 PagedAttention 的块尺寸与连续批处理的调度窗口,导致显存碎片率飙升至 63%,QPS 跌破 35,而回滚至静态批处理后,虽稳定却再也无法支撑实时多轮会话的并发压力。