11.1.2 节点间通信 (MPI) 与 GPU 加速技术 在高性能计算的疆域里,节点间通信与GPU加速技术从来不是两张平行的图纸——它们是一体两面的齿轮,咬合转动时才能驱动现代科学计算的巨轮破浪前行。当我们站在11.1.2节的门槛上凝视“节点间通信(MPI)与GPU加速技术”这一命题,绝不能满足于泛泛而谈“MPI负责跨节点,CUDA负责核内并行”的教科书式定义。真正的挑战在于:当一个双精度矩阵乘法任务被切分到4台服务器、每台搭载2块A100 GPU时,数据如何不落地穿越PCIe总线、NVLink、InfiniBand三层拓扑?MPISend是否还能直传GPU显存地址?ncclAllReduce的归约路径为何在8卡集群中自动从ring切换为tree?