第7章 AdaGrad变种 7.1 RMSProp   首先要介绍的RMSProp优化算法是AdaGrad算法的一种改进。   我们先给出前面介绍的AdaGrad算法:   在时间步 $t$,首先将小批量随机梯度 $gt$ 按元素平方后累加到变量 $st$,接着,我们将目标函数自变量中每个元素的学习率通过按元素运算重新调整一下 $$ \boldsymbol{s}{t} \leftarrow \boldsymbol{s}{t-1}+\boldsymbol{g}{t} \circ\boldsymbol{g}{t} \\ \boldsymbol{x}{t} \leftarrow