8.1.2 可靠性与弹性挑战 8.1.2 可靠性与弹性挑战:当 MPI 进程在 E 级系统上“静默蒸发”——一个被忽略的 Checkpoint/Restart 黑箱故障与实时检测破局方案 你有没有见过这样的场景? 凌晨三点,一台部署在国家超算中心的 E 级原型机(峰值 1.3 ExaFLOPS,128 万 CPU 核,4.2 万节点)正在运行一个 72 小时连续演化的全球海洋环流模型。作业已稳定运行 65 小时。监控面板上,所有节点的 CPU 利用率、内存带宽、NVLink 吞吐量曲线平滑如绸缎;InfiniBand 链路误码率维持在 $10^{-18}$ 量级;Lustre 并行文件系统 IO 延迟中位数 180 ms。当 0.