2.2 PagedAttention 机制 2.2 PagedAttention 机制:重构大语言模型推理内存范式的底层引擎 当我们站在vLLM系统架构的制高点俯瞰整个推理流水线,会发现一个看似静默、实则惊心动魄的转折点——它不显于API响应延迟的毫秒刻度,也不浮于吞吐量数字的跃升曲线,却如地壳深处的应力累积,悄然重塑着大模型服务化的物理边界。这个转折点,就是PagedAttention。 它不是一次渐进式优化,而是一场针对Transformer“记忆瓶颈”的范式革命。在标准Attention中,KV缓存如同一卷无法裁剪的丝绸长卷:无论当前请求只需其中三寸,系统仍须为其预留整匹;