5.2.1 KV Cache 管理与 PagedAttention KV Cache,这个在大模型推理中看似安静、实则举足轻重的内存结构,正悄然成为决定吞吐、延迟与显存效率的“沉默仲裁者”。它不参与计算,却比任何一层Transformer都更频繁地被读写;它不改变模型权重,却能左右一次decode能否在200ms内完成;它不显山露水,却在LLaMA-3-70B满载推理时吃掉超过14GB显存——而其中近60%的空间,常年处于碎片化闲置状态。 这不是理论推演。这是我们在Triton kernel里逐行调试 时,在Nsight Compute中反复观察 跌至42%时的真实痛感;是当batch size从8跳到16,P99延迟非线性飙升3.7倍,最终定位到 越界访问引发TLB miss的凌晨三点;