3.2.1.2 集体通信 (Broadcast, Reduce, All-to-All) 当 在千节点集群上突然“静音”:一个被忽略的 ROOT 进程状态陷阱与零拷贝广播优化实战 你有没有遇到过这样的场景? 凌晨两点,超算中心的作业队列里,一个 1024 节点、每节点 8 进程的 MPI 应用卡在 上整整 17 分钟——既不报错,也不返回, 进程活着, 显示它卡在 , 抽样显示所有进程都停在 的 内部; 看不到任何跨节点通信包; 和 显示 InfiniBand 链路全绿; 干净如初。运维说“网络没问题”,HPC 支持说“MPI 版本是最新稳定版”,而你的科学模型,正躺在内存里,一动不动。 这不是传说。