11.1.3 噪声与收敛速度 在深度学习模型的训练实践中,我们常常会遭遇这样一种令人沮丧的“温水煮青蛙”式困境:损失曲线明明还在缓慢下降,梯度模长也尚未趋近于零,但模型性能却像被无形之手按住——验证准确率停滞不前,测试误差纹丝不动,甚至悄然爬升。更微妙的是,当你把学习率调小一半,训练反而更稳了;可若再降一档,收敛又慢得让人怀疑人生;而一旦稍作放大,参数更新便如脱缰野马,在损失曲面的沟壑间反复横跳,震颤不止。这不是过拟合,也不是欠拟合;这不是数据质量问题,也不是模型容量不足——这是噪声与收敛速度之间那根绷紧到几乎透明的张力之弦,正在你每一次反向传播中发出低频嗡鸣。 欢迎来到11.1.3节:噪声与收敛速度。