4.3.2.2 曲率下界应用 4.3.2.2 曲率下界应用:在非线性优化器中嵌入Ricci曲率约束的实时梯度裁剪策略——一个被忽略却致命的数值稳定性补丁 你有没有在训练一个深层几何感知网络时,遇到过这样的场景:模型在前50个epoch收敛得异常漂亮,损失曲线光滑如镜,梯度范数稳定在1.2–1.8之间;可到了第53轮,AdamW的$ \mathbf{m}t $(一阶矩估计)突然在某一层权重更新中爆涨到$ 10^4 $量级,紧接着整个batch的loss跳变至NaN,GPU显存里飘着几行红色警告:“ ”?你重启实验、调小学习率、加梯度裁剪、甚至重写初始化——但问题总在相似的迭代步长附近重现。