梯度下降

文档摘要

梯度下降 :label: 尽管梯度下降（gradient descent）很少直接用于深度学习，但了解它是理解下一节随机梯度下降算法的关键。例如，由于学习率过大，优化问题可能会发散，这种现象早已在梯度下降中出现。同样地，预处理（preconditioning）是梯度下降中的一种常用技术，还被沿用到更高级的算法中。让我们从简单的一维梯度下降开始。一维梯度下降为什么梯度下降算法可以优化目标函数？一维中的梯度下降给我们很好的启发。