Chapter4.MBGD

文档摘要

第四章小批量随机梯度下降 4.1 背景 &emsp;&emsp;通过之前的学习，我们已经知道在机器学习与深度学习中面临的一个大挑战是：训练数据集的规模与泛化效果之间的矛盾——如果希望模型的泛化性能好，那么可以增加训练的数据量，但是需要选择合适的优化器解决数据量大带来的运算成本问题以及模型的泛化性问题，接下来探讨在大数据集情况下的优化器选择。 &emsp;&emsp;在深度学习的训练中，要想得到一个优良的深度网络，关键的一步就是选择合适的优化器（Optimizer）来优化模型参数。大部分神经网络的训练都采用了梯度下降（Gradient Descent，GD）来优化模型的参数。