10.2 PagedAttention 在上一小节中我们探讨了 KV Cache 产生的背景以及原理,在小节结尾处阐述了 KV Cache 会导致一系列的内存问题,在传统的为 KV Cache 分配管理内存方式中,往往需要预先分配大量的连续、固定的内存空间,以满足可能出现的最大内存需求。然而,这种方式往往会导致大量的内存浪费,尤其是在实际使用中内存需求远小于预先分配的情况下。PagedAttention 的出现打破了这种方式的局限性,提高了推理的性能。 10.2.1. PagedAttention 的核心原理 10.2.1.1 虚拟内存与分页管理 PagedAttention 的思想是受操作系统虚拟内存和分页技术启发而来。 虚拟内存是计算机系统内存管理的一种技术。