第四章 小批量随机梯度下降 4.1 背景   通过之前的学习,我们已经知道在机器学习与深度学习中面临的一个大挑战是:训练数据集的规模与泛化效果之间的矛盾——如果希望模型的泛化性能好,那么可以增加训练的数据量,但是需要选择合适的优化器解决数据量大带来的运算 成本问题以及模型的泛化性问题,接下来探讨在大数据集 情况下的优化器选择。   在深度学习的训练中,要想得到一个优良的深度网络,关键的一步就是选择合适的优化器(Optimizer)来优化模型参数。大部分神经网络的训练都采用了梯度下降(Gradient Descent,GD) 来优化模型的参数。