7.2.3 多 GPU 张量并行（Tensor Parallelism）支持

文档摘要

7.2.3 多 GPU 张量并行（Tensor Parallelism）支持在大模型训练的深水区，我们常常遭遇一个令人窒息的悖论：模型参数量每翻一倍，所需显存几乎呈平方级增长；而单卡显存的提升却像龟速爬行——A100 80GB 已是三年前的巅峰，H100 80GB 的带宽红利正被通信开销悄然吞噬。当一个 70B 参数的 LLaMA-3 模型仅前馈层（FFN）中一个矩阵就需占用 $70 \times 10^9 \times 2\,\text{bytes} \approx 140\,\text{GB}$ 显存时，你立刻明白：不是算力不够，而是数据无法抵达计算单元。