7.2.1 分布式深度学习训练 (Horovod, DeepSpeed)


文档摘要

7.2.1 分布式深度学习训练 (Horovod, DeepSpeed) 当AllReduce撞上NCCL超时:一次Horovod训练卡死在 的17分钟真相 凌晨两点十七分,监控告警弹窗在钉钉里炸开——集群中32张A100的GPU利用率集体归零,而训练进程的 依然稳稳挂着, 显示它正死死卡在 上,一动不动。日志最后一行停在: 没有报错,没有堆栈,没有OOM,甚至没有Python层面的异常捕获——只有那行未完成的 ,像一根绷到极限却尚未断裂的钢丝,在分布式训练的悬崖边缘悬了整整17分23秒,直到NCCL超时强制kill掉通信线程,整个训练任务无声崩溃。 这不是玄学,也不是“重启大法”能绕过的黑箱。


发布者: 作者: 转发
评论区 (0)
U