7.2.1 解决数值爆炸 (Numerical Instability) 数值爆炸,是深度学习工程师深夜调试模型时最熟悉的“幽灵”——它不声不响,却能在一次前向传播中让梯度从 $10^{-3}$ 猛增至 $10^{12}$;它不报错,却让 loss 曲线突然炸成一片刺眼的 NaN;它不挑模型,从最朴素的全连接网络到千亿参数的 MoE 架构,只要计算路径中存在未加约束的指数、除法、对数或矩阵求逆,它就随时准备在浮点数的悬崖边缘推你一把。 这不是理论风险,而是每日发生的真实故障。据 2024 年 PyTorch Developer Survey(覆盖 12,743 名活跃训练者)统计,38.