Chapter3.梯度下降与随机梯度下降

文档摘要

第三章梯度下降与随机梯度下降 &emsp;&emsp;线性模型和神经网络的训练通常都可以描述为一个优化问题。即设 $\omega^{(1)},\omega^{(2)},\cdots\omega^{(l)}$ 为优化变量（它们可以是向量、矩阵、张量）。我们通常会遇到求解这样一个优化问题： $$ \min{w^{(1)},\cdots ,w^{(l)}}\quad L(w^{(1)},\cdots ,w^{(l)}) $$ &emsp;&emsp;对于这样一个比较简单的无约束优化问题，我们常使用梯度下降算法（Gradient Descent，缩写）和随机梯度下降算法（Stochastic Gradient Descent，缩写）来寻找最优解。 3.