7.2.1.1 平台一致性 7.2.1.1 平台一致性:当 在 x86-64 与 ARM64 上返回不同比特——一个被编译器“优化”掉的确定性 凌晨两点十七分,你收到告警:训练集群中 3 台 A100 节点的梯度聚合结果与另外 2 台 M1 Ultra 工作节点在第 1728 步出现微小但稳定的偏差——不是随机漂移,而是固定偏移: 。这个数字你太熟悉了:它正是单精度浮点数的最小正次正规数( ),更精确地说,是 —— 单精度尾数位宽减一后的单位最低有效位(ULP)。这不是数值误差,这是比特级的分歧。 你立刻拉出日志、比对输入张量哈希、检查 RNG 种子、确认 PyTorch 版本一致……一切无误。