5.3 调试技术 第五章:性能分析、调试与调优 5.3 调试技术 你有没有在深夜三点盯着终端里那一行 的堆栈,手边是 128 个 MPI 进程、每个进程又开 8 个 OpenMP 线程的混合并行程序?内存使用曲线像心电图一样起伏,但某次 后的 却在第 47 号线程里悄无声息地越界了三字节;而那个“偶尔复现”的段错误——它只在启用了 且 时,在第 19 个 MPI rank 的第 3 次迭代中触发。你用 attach 上去,却发现断点永远不命中;加了 ,bug 就消失了;关掉优化,程序跑得通,但上线后一开 就死锁…… 这不是玄学。这是现代 HPC 调试的真实切面——一个由并发性、非确定性、观测扰动、状态爆炸和硬件隐喻层叠共同构筑的调试深水区。