7.4 拓展阅读 连续优化是一个活跃的研究领域,我们并不试图对近期进展进行全面的介绍。 从梯度下降的角度来看,它有两个主要弱点,每个弱点都有相应的文献。第一个挑战是梯度下降是一种一阶算法,它不使用有关表面曲率的信息。当存在 “狭长的山谷” 时,梯度垂直于感兴趣的方向。动量的概念可以推广到一类加速方法(Nesterov, 2018)。共轭梯度法通过考虑先前的方向来避免梯度下降面临的问题(Shewchuk, 1994)。二阶方法(如 Newton 法)使用 Hessian 矩阵来提供有关曲率的信息。许多选择步长和动量等想法的选择都是通过考虑目标函数的曲率而产生的(Goh, 2017; Bottou et al., 2018)。