3.4 前馈神经网络(Feed-Forward Networks)


文档摘要

3.4 前馈神经网络(Feed-Forward Networks) 3.4 前馈神经网络(Feed-Forward Networks) 在Transformer模型的每个编码器和解码器层中,除了核心的多头注意力机制外,还包含一个相对简单但至关重要子层:前馈神经网络(Feed-Forward Network,简称FFN)。这个FFN层对注意力机制的输出进行进一步处理,是模型学习和表示复杂模式的关键组成部分。 3.4.1 结构概述 标准的Transformer前馈神经网络是一个两层的全连接网络。其基本结构如下: 第一个线性层(Linear Layer 1): 接收来自注意力子层(经过残差连接和层归一化)的输入向量。这个层将输入的维度从模型的隐藏层大小 映射到一个更高的维度 。


发布者: 作者: 转发
评论区 (0)
U