2.3 Decoder模块详解


文档摘要

2.3 Decoder模块详解 2.3 Decoder模块详解 Transformer模型的另一个核心组成部分是Decoder(解码器)。与Encoder将输入序列转换为高级表示不同,Decoder的任务是基于Encoder输出的表示以及自身之前生成的序列,逐步地生成目标序列。这一过程是自回归的(Auto-Regressive),意味着每个词的生成都依赖于前一个词以及Encoder提供的上下文信息。 2.3.1 Decoder的整体结构 Decoder也由堆叠在一起的多个相同层组成。每一层Decoder都比Encoder层多一个多头注意力子层。一个标准的Decoder层包含以下三个主要子层: Masked Multi-Head Self-Attention:带掩码的多头自注意力机制。


发布者: 作者: 转发
评论区 (0)
U