1.1.3 与同类工具对比(如 vLLM, LocalAI, LM Studio) 我们常常在深夜调试一个推理服务时,盯着 里那块显卡的显存使用率曲线——它像心电图一样起伏:刚加载模型时陡然冲高,第一次 调用后回落,接着在 batch 扩大时又诡异地跳升 1.2GB,而 的日志却平静地写着 。你心里一紧:这多出来的内存,是 KV Cache 的碎片?是 PagedAttention 的 page table 元数据开销?还是某处未释放的 CUDA graph 缓存?——工具的差异,从来不在文档里那几行 feature list 的对比,而在你按下 后, 是否真能清掉那一块 472MB 的“幽灵显存”。