Adam算法 :label: 本章我们已经学习了许多有效优化的技术。 在本节讨论之前,我们先详细回顾一下这些技术: 在 :numref: 中,我们学习了:随机梯度下降在解决优化问题时比梯度下降更有效。 在 :numref: 中,我们学习了:在一个小批量中使用更大的观测值集,可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。 在 :numref: 中我们添加了一种机制,用于汇总过去梯度的历史以加速收敛。 在 :numref: 中,我们通过对每个坐标缩放来实现高效计算的预处理器。 在 :numref: 中,我们通过学习率的调整来分离每个坐标的缩放。 Adam算法 :cite: 将所有这些技术汇总到一个高效的学习算法中。