7.2.1 分布式深度学习训练 (Horovod, DeepSpeed)

文档摘要

7.2.1 分布式深度学习训练 (Horovod, DeepSpeed) 当AllReduce撞上NCCL超时：一次Horovod训练卡死在的17分钟真相凌晨两点十七分，监控告警弹窗在钉钉里炸开——集群中32张A100的GPU利用率集体归零，而训练进程的依然稳稳挂着，显示它正死死卡在上，一动不动。会员。《7.2.1 分布式深度学习训练 (Horovod， DeepSpeed)》收录于灏天文库文集《高性能计算 (HPC) 与并行计算》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号32105。

该文档为会员专享，请先登录或注册后再查看

登录注册