神经网络的优化器(二)SGD


文档摘要

每天3分钟,彻底弄懂神经网络的优化器(二)SGD SGD 随机梯度下降(Stochastic Gradient Descent,SGD)是一种用于优化可微分目标函数的迭代方法,它是梯度下降优化的随机近似。SGD的提出可以追溯到1951年,由Herbert Robbins和Sutton Monro在他们的论文《A Stochastic Approximation Method》[1]中首次描述了随机近似方法,这可以看作是SGD的前身。随后,J. Kiefer和J. Wolfowitz在1952年发表了论文《Stochastic Estimation of the Maximum of a Regression Function》[2],这篇论文更接近于机器学习领域中SGD的现代理解。


发布者: 作者: 转发
评论区 (0)
U