2.4 激活函数相关问题:梯度消失、梯度爆炸、死亡ReLU 2.4 激活函数相关问题:梯度消失、梯度爆炸、死亡ReLU 在深度神经网络的训练过程中,激活函数的选择至关重要,它直接影响着模型的学习能力和训练效率。然而,不恰当的激活函数选择可能会导致梯度消失、梯度爆炸或死亡 ReLU 等问题,从而阻碍模型的有效训练。 2.4.1 梯度消失 (Vanishing Gradients) 定义: 梯度消失是指在深度神经网络的反向传播过程中,梯度逐渐减小到接近于零,导致浅层网络的权重更新非常缓慢甚至停止更新的现象。 原因: 激活函数选择: 传统的激活函数如 Sigmoid 和 Tanh,在输入值很大或很小的时候,其导数接近于零。