4.3 Transformer 模型 4.3 Transformer 模型 Transformer 模型是机器翻译领域的一项里程碑式创新,由 Google Brain 团队于2017年在论文《Attention Is All You Need》中提出。它彻底颠覆了此前主流的循环神经网络 (RNN) 和卷积神经网络 (CNN) 在序列建模任务中的统治地位,凭借其并行计算能力和对长距离依赖的有效捕获,成为了现代自然语言处理 (NLP) 领域的基础架构。 4.3.1 Transformer 的核心思想:注意力机制 Transformer 模型最核心的创新在于完全摒弃了 RNN 的循环结构和 CNN 的局部感知,转而完全依赖于“注意力机制”(Attention Mechanism)。