5.1.1 Tensor Parallel 与 Pipeline Parallel 在单节点多 GPU 的训练场景中,模型规模的膨胀早已突破单卡显存的物理天花板。当一个 70B 参数的大语言模型以 精度加载时,仅参数就需约 140GB 显存——而即便是当前最强的单卡 H100(80GB SXM5)也远不能承载。此时,“把大模型切开”不再是一种权衡,而是一条必经的技术窄门。但切法千差万别:是沿张量维度“剁碎”矩阵乘法(Tensor Parallel),还是按网络层“分段装箱”前向/反向(Pipeline Parallel)?抑或二者合流,形成更精密的混合并行齿轮组?本节不谈概念定义,不列教科书式对比表;