7.3.1.1 几何图像辅助理解


文档摘要

7.3.1.1 几何图像辅助理解 当梯度下降在损失曲面上“迷路”时,你画过它的等高线吗?——一个被低估的几何直觉修复术 凌晨两点十七分,我第三次重启训练脚本,盯着终端里那行反复跳动的 ,像看一块拒绝融化的冰。模型收敛得如此迟滞,验证损失在毫厘间来回振荡,既不崩溃,也不前进。同事说:“调调学习率吧。”导师说:“试试AdamW。”而我在想:它到底在看见什么? 不是参数空间里的抽象向量,不是TensorBoard里模糊的曲线图,而是——真实地形。 是山脊、山谷、鞍点、平缓盆地,是曲率剧烈变化的悬崖边缘,是两个局部极小值之间那道窄得几乎无法穿越的山坳。 可我们却用标量数值去揣测整片山脉的形态。这就像仅靠海拔读数判断珠峰北坡是否适合结组攀登——数据没错,但缺了一张地图。 这就是“7.3.1.


发布者: 作者: 转发
评论区 (0)
U