3.3.1 运行时参数（gpu-memory-utilization、max-model-len）

文档摘要

3.3.1 运行时参数（gpu-memory-utilization、max-model-len）在大模型推理服务的工程实践中，与这两个运行时参数，远非配置文件中两行可有可无的键值对。它们是横亘在“模型能跑起来”与“模型能稳、快、省地跑起来”之间最真实、最锋利的分水岭。当你在 vLLM、TGI 或自研推理引擎中敲下的那一刻，你不是在调一个浮点数——你是在向 GPU 显存管理子系统递交一份带约束条件的资源契约；而当你将设为默认值时，你实际上已悄然为整个 KV Cache 分配逻辑埋下了一个可能在高并发场景下突然崩塌的伏笔。我们不谈抽象概念，不列教科书式定义。