5.3.1 并行调试器 (Arm Forge/DDT, TotalView) 5.3.1 并行调试器(Arm Forge/DDT, TotalView):当 MPI 进程在 2048 个核上“静默蒸发”——一次由 隐式死锁引发的跨节点内存越界溯源实战 凌晨两点十七分,HPC 作业队列里那行醒目的 不是报错,而是判决书。 不是段错误,没有核心转储,没有 断言触发,甚至 附加后只看到所有线程卡在 的系统调用里——像一群被抽走灵魂的士兵,整齐立正,纹丝不动。 这不是程序崩溃;这是程序在活着的状态下,集体失语。 你刚提交的 ,在 Summit 节点组上运行到第 37 个时间步时,无声无息地被 YARN 杀掉。日志里最后一行是: 然后戛然而止。没有 ,没有 ,连 都说“未检测到数据竞争”。