大模型分布式训练并行技术(五)混合并行 引言 你可能在很多地方听过3D并行技术,我们之前讨论的数据并行,流水线并行,张量并行都是属于1D并行技术。 在某些分类中,流水线并行和张量并行都被划归为模型并行技术。 混合并行技术是指同时使用多种并行技术,比如数据并行和模型并行,或者数据并行和流水线并行,或者数据并行和张量并行。 DP+PP 数据并行和流水线并行的结合,是一种非常常见的2D混合并行技术。 下图是来自 DeepSpeed 流水线并行教程,演示了如何将 DP 与 PP 结合起来。 alt text 这里重要的是要看到 DP Rank 0 看不到 GPU2,而 DP Rank 1 看不到 GPU3。