3.3.1 运行时参数(gpu-memory-utilization、max-model-len) 在大模型推理服务的工程实践中, 与 这两个运行时参数,远非配置文件中两行可有可无的键值对。它们是横亘在“模型能跑起来”与“模型能稳、快、省地跑起来”之间最真实、最锋利的分水岭。当你在 vLLM、TGI 或自研推理引擎中敲下 的那一刻,你不是在调一个浮点数——你是在向 GPU 显存管理子系统递交一份带约束条件的资源契约;而当你将 设为默认值时,你实际上已悄然为整个 KV Cache 分配逻辑埋下了一个可能在高并发场景下突然崩塌的伏笔。 我们不谈抽象概念,不列教科书式定义。