Chapter2.优化算法概述

文档摘要

第二章优化算法概述 &emsp;&emsp;本节主要介绍基于梯度的优化算法的基本分析框架，并讨论它如何应用于深度学习中。 2.1 梯度下降（Gradient descent ） &emsp;&emsp;假设我们现在想要找出一个多元连续函数 $f(w)$ 的最小值 $\displaystyle \min \limits{w \in R^d}f(w)$，其梯度下降算法如下： $$ w0 = \text{initialization} \\ w{t+1} = wt - \eta \nabla f(wt) $$ 其中，$\eta$ 称为步长或学习率。 &emsp;&emsp;梯度下降算法的一个核心思想就是找出局部最陡的梯度下降方向 $-\nabla f(wt)$。