5.3 梯度裁剪 (Gradient Clipping) 5.3 梯度裁剪 (Gradient Clipping) 在深度神经网络的训练过程中,梯度爆炸是一个常见的问题。它会导致权重更新幅度过大,使得训练过程不稳定,甚至发散。梯度裁剪是一种有效的解决梯度爆炸问题的技术,通过限制梯度的范围,防止权重更新过大,从而稳定训练过程。 5.3.1 梯度爆炸问题 梯度爆炸通常发生在深度网络或者循环神经网络中。在反向传播过程中,每一层的梯度都会被累积,如果梯度值大于1,经过多次累积,梯度就会呈指数级增长,导致梯度爆炸。 梯度爆炸的后果包括: 训练不稳定: 权重更新幅度过大,导致损失函数剧烈震荡,难以收敛。 权重溢出: 权重值变得非常大,超出计算机所能表示的范围,导致程序崩溃。