Chapter5.Momentum

文档摘要

第五章动量方法 (Momentum) 5.1 背景 &emsp;&emsp;使用梯度下降法，每次都会朝着目标函数下降最快的方向，这种更新方法看似非常快，实际上存在一些问题，即在最优解附近来回震荡，导致接近最优解的地方收敛效果不佳。 &emsp;&emsp;考虑一个二维输入 $[x1, x2]$，输出的损失函数为 $L: R^2 \rightarrow R$，下图是损失函数的等高线，便于记忆，我们可以将其想象成一个很扁的漏斗。在竖直方向上，损失函数的梯度非常大，而相对应地，在水平方向上的梯度就相对较小。因此，学习率的设置不能太大，以防止竖直方向上参数更新太快，然而，较小的学习率又会导致在水平方向上的参数更新过于缓慢，进而影响最终的收敛速度。