6.3 容错与检查点机制 (Checkpoint/Restart)


文档摘要

6.3 容错与检查点机制 (Checkpoint/Restart) 在超算集群的运行现场,你见过最令人心碎的场景是什么? 不是作业排队三小时后被调度器踢出队列;不是MPI进程因网络抖动集体卡死在 ;而是——一个耗时72小时、已执行到第68小时的全球海洋环流模拟,在最后一刻,因某台计算节点的内存ECC校验失败触发硬复位,整个进程空间灰飞烟灭。没有警告,没有回滚,只有日志里一行冰冷的 ,和调度器输出的 。 这不是故事,是每天在TOP500集群中真实发生的“沉默崩溃”。而容错与检查点机制(Checkpoint/Restart, C/R),正是我们为这种绝望时刻亲手锻造的第一道时间锚点——它不阻止故障发生,却让计算在时间轴上拥有了“可逆性”。


发布者: 作者: 转发
评论区 (0)
U