2.2.1.1 块化存储与分配策略 2.2.1.1 块化存储与分配策略:当 LRU 遇上 KV 缓存分页,为什么你的“热块”总在被误杀?——一个真实线上故障驱动的内存布局重构实践 凌晨两点十七分,监控告警第三次弹窗: 。值班工程师点开 Flame Graph,目光钉死在 函数上——它正以每秒 147 次的频率被调用,而其中 83% 的调用最终执行了 到 CPU 内存,而非复用 GPU 显存中的旧块。这不是缓存击穿,不是冷启动抖动,更不是模型权重加载问题。这是块化存储层在高压下暴露出的空间局部性幻觉:我们精心设计的“块”,在硬件视角里根本不是一块。 这就是我们要直面的痛点——KV 缓存的“块”,不该是逻辑概念,而必须是物理契约。