2.2.2 与标准 Attention 对比 我们来直面一个在大模型推理工程中反复被叩问却少有人真正拆解到寄存器层面的问题:为什么一个看似只改了内存组织方式的机制——PagedAttention——竟能让 LLaMA-3-70B 在单卡 A100 上实现 128K 上下文的稳定流式生成,而标准 Attention 在相同硬件上连 32K 都会触发 CUDA OOM? 这不是玄学。这是内存访问模式、缓存局部性、GPU 显存带宽利用率与注意力计算范式之间一场精密的博弈。