9.2.3.1 估计技巧(三角不等式)


文档摘要

9.2.3.1 估计技巧(三角不等式) 9.2.3.1 估计技巧(三角不等式):当浮点误差在梯度裁剪中悄然越界——一个被忽略的三角不等式失效现场与修复实践 你有没有在训练一个看似平凡的Transformer模型时,突然遭遇这样的报错? 不是初始权重爆炸,不是学习率过高,不是数据里混进了 ——而是在第1732步, 返回了一个 ,且 本身却是有限值。你加了 ,却只看到一行模糊的警告:“encountered a nan gradient in backward pass”。你把所有参数的梯度逐层打印出来,全是规整的float32数值;你甚至用 去检查最小正次正规数,确认没有下溢……可问题依旧在深夜三点准时复现。 这不是玄学。


发布者: 作者: 转发
评论区 (0)
U