5.1.2 专家并行(MoE 模型支持) 在单节点多 GPU 的训练场景中,专家并行(Expert Parallelism)早已不是纸上谈兵的学术构想——它正以惊人的工程密度,悄然重构着大模型训练的底层范式。当我们在一台搭载 8 张 A100 或 H100 的服务器上部署一个含 64 个专家(Experts)的 MoE 模型时,真正的挑战从来不是“能不能跑起来”,而是:如何让每个 GPU 精准承载一组专家、如何让路由逻辑在毫秒级完成动态决策、如何让梯度在跨设备专家间无损反传、又如何避免通信瓶颈把带宽吃成一片荒漠? 这些问题的答案,不在论文的定理证明里,而在 的 初始化顺序中,在 的 钩子嵌套深度里,在 通信原语的张量切片对齐方式里,在 对 路由图的融合优化边界上。