1.5 优化算法:梯度下降及其变体 (SGD, Adam, RMSprop) 1.5 优化算法:梯度下降及其变体 (SGD, Adam, RMSprop) 深度学习模型的训练本质上是一个优化过程,目标是找到使损失函数最小化的模型参数。 优化算法在这一过程中扮演着至关重要的角色,它们引导模型参数向损失函数的最小值移动。 本节将深入探讨梯度下降及其几种重要的变体,包括随机梯度下降(SGD)、Adam 和 RMSprop。 1.5.1 梯度下降 (Gradient Descent, GD) 梯度下降是最基础且最常用的优化算法之一。 它的核心思想是:沿着损失函数梯度方向的反方向,迭代更新模型参数,以逐步逼近损失函数的最小值。 原理: 计算梯度: 计算损失函数关于模型参数的梯度。