神经网络的激活函数(五)门控系列 GLU、Swish和SwiGLU GLU函数 8 GLU(Gated Linear Unit,门控线性单元)是一种在深度学习中用于增强模型表现的激活函数。GLU通过引入门控机制,使得模型能够选择性地通过信息,从而提高模型的表达能力和性能。 1.1 数学定义 GLU函数的数学表达式为: $$\text{GLU}(x) = (X ∗ W + b) ⊗ σ(X ∗ V + c)$$ 其中 ⊗ 表示逐元素乘法,$X$ 是输入,$W$ 和 $V$ 是权重矩阵,$b$ 和 $c$ 是偏置项。 1.2 关键性质 门控机制:GLU通过引入门控机制,使得模型能够选择性地通过信息,从而提高模型的表达能力。 非线性:GLU结合了线性变换和非线性激活,使得模型能够学习复杂的模式。