7.2.3 多 GPU 张量并行(Tensor Parallelism)支持


文档摘要

7.2.3 多 GPU 张量并行(Tensor Parallelism)支持 在大模型训练的深水区,我们常常遭遇一个令人窒息的悖论:模型参数量每翻一倍,所需显存几乎呈平方级增长;而单卡显存的提升却像龟速爬行——A100 80GB 已是三年前的巅峰,H100 80GB 的带宽红利正被通信开销悄然吞噬。当一个 70B 参数的 LLaMA-3 模型仅前馈层(FFN)中一个 矩阵就需占用 $70 \times 10^9 \times 2\,\text{bytes} \approx 140\,\text{GB}$ 显存时,你立刻明白:不是算力不够,而是数据无法抵达计算单元。


发布者: 作者: 转发
评论区 (0)
U