1.2.2.1 数学期望的性质


文档摘要

1.2.2.1 数学期望的性质 当数学期望的线性性在分布式训练中突然“失效”:一个被忽略的梯度缩放陷阱与可复用的期望校准模式 你有没有遇到过这样的场景? 模型在单卡上训练一切正常,loss稳定下降,指标符合预期;一旦切到多卡DDP(DistributedDataParallel),哪怕只用两块GPU,训练初期的梯度范数就比单卡高1.8倍——不是2倍,不是1.414倍,是1.8倍。你反复检查 的文档,确认没漏掉 ;你核对 的 语义;… 会员。《1.2.2.1 数学期望的性质》收录于灏天文库文集《随机过程》,提供技术教程、实践指南与问题解决方案,支持在线阅读、全文检索与知识沉淀,助力开发者系统化学习。文档编号56535。

该文档为会员专享,请先登录或注册后再查看


发布者: 作者: 转发
评论区 (0)
U