6.3.2.1 Throughput vs. Latency 权衡 6.3.2.1 Throughput vs. Latency 权衡:Batch Size 的“临界坍缩点”——一个在 LLaMA-3-70B 推理服务中被忽略的 CUDA 内存碎片化陷阱 凌晨两点十七分,SRE 告警弹窗第三次跳出来:“/v1/chat/completions 延迟 P99 > 8.4s,连续 5 分钟”。不是模型卡死,不是 GPU OOM,不是网络抖动——是 里那张 A100-SXM4 显存使用率稳定在 92.3%,而 却只报出 68.1 GiB。更诡异的是:当我们将 batchsize 从 8 改为 7,P99 瞬间回落至 1.2s;改回 8,延迟曲线像被钉在高压电网上,剧烈震颤。