第五章 动量方法 (Momentum) 5.1 背景   使用梯度下降法,每次都会朝着目标函数下降最快的方向,这种更新方法看似非常快,实际上存在一些问题,即在最优解附近来回震荡,导致接近最优解的地方收敛效果不佳。   考虑一个二维输入 $[x1, x2]$,输出的损失函数为 $L: R^2 \rightarrow R$,下图是损失函数的等高线,便于记忆,我们可以将其想象成一个很扁的漏斗。在竖直方向上,损失函数的梯度非常大,而相对应地,在水平方向上的梯度就相对较小。因此,学习率的设置不能太大,以防止竖直方向上参数更新太快,然而,较小的学习率又会导致在水平方向上的参数更新过于缓慢,进而影响最终的收敛速度。