2. Transformer核心架构


文档摘要

Transformer核心架构 Transformer核心架构 Transformer模型的核心在于其完全基于注意力机制的设计,彻底摒弃了传统序列模型(如RNN、LSTM)中循环和卷积结构。这种创新使得模型能够并行处理序列中的所有元素,极大地提高了训练效率,并能够更好地捕捉序列中长距离的依赖关系。其架构主要由一个编码器(Encoder)和一个解码器(Decoder)组成,两者都由多个相同的层堆叠而成。 2.1 整体Encoder-Decoder结构 Transformer沿用了经典的Encoder-Decoder框架,用于处理序列到序列(Seq2Seq)的任务,例如机器翻译。 编码器(Encoder):负责将输入的源序列(例如,待翻译的英文句子)转换成一系列连续的表示或向量。


发布者: 作者: 转发
评论区 (0)
U