9.1.2 收敛速度 (Convergence Speed)


文档摘要

9.1.2 收敛速度 (Convergence Speed) 收敛速度,不是训练日志里那行一闪而过的 ,也不是学习率调度器上一个被反复调参的 调用——它是模型在参数空间中跋涉的步幅与方向之和,是梯度下降这条“下山小径”上每一步的坡度、摩擦力与负重的实时博弈,更是算法设计者在数学严谨性与工程鲁棒性之间反复校准的动态平衡点。 你有没有经历过这样的深夜:模型在第 87 个 epoch 突然卡住,验证 loss 像冻住的溪流,纹丝不动;或者更糟——它开始缓慢震荡,loss 在 区间内画着毫无意义的圆圈,而你的 GPU 风扇声已盖过窗外雨声。你翻遍 lrscheduler 文档,试过 、 、 ,甚至手写了一个带指数衰减的 warmup + cooldown 组合策略……可收敛曲线依然平缓如高原。


发布者: 作者: 转发
评论区 (0)
U