9.1 学术创新点 在大模型推理系统演进的宏大图景中,vLLM 的崛起并非偶然的技术跃迁,而是一场以内存范式重构为内核、以计算与存储协同重定义为路径的静默革命。它不靠堆叠算力,不靠压缩精度,甚至不依赖新型硬件——它所做的,是重新丈量“注意力”这一核心操作在GPU显存空间中的物理尺度,并在此基础上,构建起一套与Transformer原语深度对齐的内存抽象层。这便是“9.1 学术创新点”的真正所指:它不是若干技巧性优化的集合,而是一种系统级的第一性原理回归——当整个社区还在用KV Cache的“块状直觉”管理注意力状态时,vLLM率先提出了一个尖锐问题:如果KV缓存本质上是稀疏、非连续、动态增长的张量序列,那么为何还要用固定大小的tensor buffer去模拟它?