6.3.2 影响因素剖析(Batch Size、Context Length) 在大模型推理与训练的工程实践中,Batch Size 与 Context Length 并非两个孤立可调的滑块——它们是嵌套在内存带宽、计算吞吐、缓存局部性、注意力机制复杂度四重约束下的耦合变量。当我们在 H100 上将 、 的 LLaMA-3-70B 推理任务从 切换为 时,端到端延迟不降反升 17%,而 GPU 显存占用却下降了 23%;