9.1.1 PagedAttention 论文剖析 我们来直面一个在大语言模型推理系统中掀起静默革命的核心技术——PagedAttention。它不是某种玄学优化,也不是对现有注意力机制的修修补补;它是第一次,将操作系统级的内存管理思想,完整、严丝合缝地嵌入到Transformer解码器的KV缓存生命周期之中。当我们在深夜调试一个OOM崩溃的推理服务,当我们在监控面板上看到GPU显存利用率在78%与92%之间反复拉锯,当我们在吞吐量指标上卡在某个诡异的平台期迟迟无法突破……那一刻,你真正需要的,不是更大的卡、更激进的batch size,而是一次底层内存抽象的重构。