2.4 Attention机制总览


文档摘要

2.4 Attention机制总览 2.4 Attention机制总览 在深入探讨Transformer模型的具体结构之前,理解其核心创新——Attention(注意力)机制——至关重要。Attention机制并非Transformer模型首次引入,它在之前的序列到序列模型(如带有Attention的RNN/LSTM)中已被用于改善长距离依赖问题。然而,Transformer模型则彻底放弃了循环或卷积结构,将Attention机制作为构建整个模型的基础,这带来了革命性的变化。 2.4.1 为什么需要Attention?循环模型的局限性 在Transformer出现之前,处理序列数据(如自然语言)的主流模型是循环神经网络(RNN)及其变种(LSTM, GRU)。


发布者: 作者: 转发
评论区 (0)
U