2.4 Attention机制总览

文档摘要

2.4 Attention机制总览 2.4 Attention机制总览在深入探讨Transformer模型的具体结构之前，理解其核心创新——Attention（注意力）机制——至关重要。Attention机制并非Transformer模型首次引入，它在之前的序列到序列模型（如带有Attention的RNN/LSTM）中已被用于改善长距离依赖问题。然而，Transformer模型则彻底放弃了循环或卷积结构，将Attention机制作为构建整个模型的基础，这带来了革命性的变化。 2.4.1 为什么需要Attention？循环模型的局限性在Transformer出现之前，处理序列数据（如自然语言）的主流模型是循环神经网络（RNN）及其变种（LSTM, GRU）。