RMSProp算法


文档摘要

RMSProp算法 :label: :numref: 中的关键问题之一,是学习率按预定时间表$\mathcal{O}(t^{-\frac{1}{2}})$显著降低。 虽然这通常适用于凸问题,但对于深度学习中遇到的非凸问题,可能并不理想。 但是,作为一个预处理器,Adagrad算法按坐标顺序的适应性是非常可取的。 :cite: 建议以RMSProp算法作为将速率调度与坐标自适应学习率分离的简单修复方法。 问题在于,Adagrad算法将梯度$\mathbf{g}t$的平方累加成状态矢量$\mathbf{s}t = \mathbf{s}{t-1} + \mathbf{g}t^2$。 因此,由于缺乏规范化,没有约束力,$\mathbf{s}t$持续增长,几乎上是在算法收敛时呈线性递增。


发布者: 作者: 转发
评论区 (0)
U