6.3 容错与检查点机制 (Checkpoint/Restart)

文档摘要

6.3 容错与检查点机制 (Checkpoint/Restart) 在超算集群的运行现场，你见过最令人心碎的场景是什么？不是作业排队三小时后被调度器踢出队列；不是MPI进程因网络抖动集体卡死在；而是——一个耗时72小时、已执行到第68小时的全球海洋环流模拟，在最后一刻，因某台计算节点的内存ECC校验失败触发硬复位，整个进程空间灰飞烟灭。没有警告，没有回滚，只有日志里一行冰冷的，和调度器输出的。会员。《6.3 容错与检查点机制 (Checkpoint/Restart)》收录于灏天文库文集《高性能计算 (HPC) 与并行计算》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号32096。

该文档为会员专享，请先登录或注册后再查看

登录注册