8.1 迈向 E 级计算 (Exascale Computing)


文档摘要

8.1 迈向 E 级计算 (Exascale Computing) 第八章:前沿趋势与挑战 8.1 迈向 E 级计算(Exascale Computing) 你有没有试过在凌晨三点,盯着一个正在崩溃的 MPI 作业日志发呆?不是因为代码逻辑错了——它在单节点上跑得 perfectly;也不是因为内存越界——Valgrind 检查一片绿光;而是因为当任务规模从 1024 个进程扩展到 65,536 个进程时,某个看似无害的 Allreduce 操作开始出现 17.3% 的非确定性延迟抖动,而故障节点的日志里只留下一行模糊的 。这不是科幻小说里的桥段,这是 2023 年 Frontier 超算上真实发生的调试现场。


发布者: 作者: 转发
评论区 (0)
U