1.2.2.1 数学期望的性质 当数学期望的线性性在分布式训练中突然“失效”:一个被忽略的梯度缩放陷阱与可复用的期望校准模式 你有没有遇到过这样的场景? 模型在单卡上训练一切正常,loss稳定下降,指标符合预期;一旦切到多卡DDP(DistributedDataParallel),哪怕只用两块GPU,训练初期的梯度范数就比单卡高1.8倍——不是2倍,不是1.414倍,是1.8倍。你反复检查 的文档,确认没漏掉 ;你核对 的 语义;你甚至把 除以 后手动做了global batch对齐……可那个诡异的1.8,像幽灵一样悬在 的打印日志里,挥之不去。 这不是数值误差。 这不是硬件漂移。 这是数学期望的线性性,在你没意识到的地方,被悄悄篡改了。