第二章 优化算法概述   本节主要介绍基于梯度的优化算法的基本分析框架,并讨论它如何应用于深度学习中。 2.1 梯度下降(Gradient descent )   假设我们现在想要找出一个多元连续函数 $f(w)$ 的最小值 $\displaystyle \min \limits{w \in R^d}f(w)$,其梯度下降算法如下: $$ w0 = \text{initialization} \\ w{t+1} = wt - \eta \nabla f(wt) $$ 其中,$\eta$ 称为步长或学习率。   梯度下降算法的一个核心思想就是找出局部最陡的梯度下降方向 $-\nabla f(wt)$。