transformer


文档摘要

Transformer :label: :numref: 中比较了卷积神经网络(CNN)、循环神经网络(RNN)和自注意力(self-attention)。值得注意的是,自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此,使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 :cite: ,Transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层 :cite: 。尽管Transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。 模型 Transformer作为编码器-解码器架构的一个实例,其整体架构图在 :numref: 中展示。


发布者: 作者: 转发
评论区 (0)
U