2.2.1 KV 缓存分页原理 在大模型推理的战场上,KV缓存早已不是配角,而是决定吞吐、延迟与显存利用率的“战略制高点”。当一个70B参数的模型以每秒20 token的速度生成文本时,若仍沿用传统连续分配的KV缓存策略——每个序列独占一块固定大小的内存块,那么显存中将充斥着大量“半空”的缓存页:有的只用了3个token的KV对,却占了64个slot;有的刚解码到第127步,下一轮又得申请新块……碎片如雪崩,OOM(Out-of-Memory)警报此起彼伏。PagedAttention的横空出世,并非仅仅引入了一个新名词,而是一次对GPU内存抽象层的底层重铸——它把KV缓存从“按需划地建房”的粗放模式,升级为“按页租赁、动态拼装、即用即还”的云原生式内存管理。