5.2.1 KV Cache 管理与 PagedAttention

文档摘要

5.2.1 KV Cache 管理与 PagedAttention KV Cache，这个在大模型推理中看似安静、实则举足轻重的内存结构，正悄然成为决定吞吐、延迟与显存效率的“沉默仲裁者”。它不参与计算，却比任何一层Transformer都更频繁地被读写；它不改变模型权重，却能左右一次decode能否在200ms内完成；它不显山露水，却在LLaMA-3-70B满载推理时吃掉超过14GB显存——而其中近60%的空间，常年处于碎片化闲置状态。这不是理论推演。这是我们在Triton kernel里逐行调试时，在Nsight Compute中反复观察跌至42%时的真实痛感；是当batch size从8跳到16，P99延迟非线性飙升3.7倍，最终定位到越界访问引发TLB miss的凌晨三点；