5.1 单节点多 GPU

文档摘要

5.1 单节点多 GPU 在大模型推理的工程实践中，单节点多 GPU 并非一个权宜之计，而是一道必须跨越的“物理性门槛”——它既是摩尔定律在算力维度上尚未失效的最后堡垒，也是通往真正弹性扩展前最坚实、最可控、最具确定性的技术跳板。当我们谈论 vLLM 的分布式部署与扩展时，许多人本能地将目光投向跨节点通信、RDMA 网络优化或集群调度策略；然而，若单节点内部的多卡协同尚不能做到毫秒级对齐、显存零冗余复用、计算无空转等待，那么任何宏大的分布式蓝图，都将在第一跳就遭遇不可忽视的“节点内熵增”。这正是为什么“5.1 单节点多 GPU”不是分布式章节中一个被轻描淡写的前置条件，而是整套推理系统吞吐、延迟与资源效率的决定性锚点。