7.1 基于梯度下降的优化 现在考虑求解一个实值函数最小值的问题: $$ \min\limits{\boldsymbol{x}}f(\boldsymbol{x}), \tag{7.4} $$ 其中 $f: \mathbb{R}^{d} \rightarrow \mathbb{R}$ 是一个函数,它刻画了我们手中的机器学习问题。我们假设函数 $f$ 是可微的,并且我们无法找到上述问题的解析解。 梯度下降是一个一阶优化算法。它的每次迭代都将估计点做一个正比于函数在该点处的负梯度向量的移动,以逐步找到一个局部最小值点。回顾第 5.1 节,梯度方向是函数值增长最快的方向。