8.1.2 可靠性与弹性挑战


文档摘要

8.1.2 可靠性与弹性挑战 8.1.2 可靠性与弹性挑战:当 MPI 进程在 E 级系统上“静默蒸发”——一个被忽略的 Checkpoint/Restart 黑箱故障与实时检测破局方案 你有没有见过这样的场景? 凌晨三点,一台部署在国家超算中心的 E 级原型机(峰值 1.3 ExaFLOPS,128 万 CPU 核,4.2 万节点)正在运行一个 72 小时连续演化的全球海洋环流模型。作业已稳定运行 65 小时。 会员。《8.1.2 可靠性与弹性挑战》收录于灏天文库文集《高性能计算 (HPC) 与并行计算》,提供技术教程、实践指南与问题解决方案,支持在线阅读、全文检索与知识沉淀,助力开发者系统化学习。文档编号32111。

该文档为会员专享,请先登录或注册后再查看


发布者: 作者: 转发
评论区 (0)
U