5.2 自注意力机制 (Self-Attention) 详解 5.2 自注意力机制 (Self-Attention) 详解 自注意力机制(Self-Attention),也称为内部注意力机制(Intra-Attention),是注意力机制的一种特殊形式。它减少了对外部信息的依赖,而是尝试在序列内部学习序列元素的相互关系,从而更好地捕捉序列的内部结构。在Transformer模型中,自注意力机制扮演着至关重要的角色,使得模型能够并行地处理序列信息,并且能够有效地捕捉长距离依赖关系。 5.2.1 自注意力机制的核心思想 传统的注意力机制通常用于将一个序列(例如,机器翻译中的源语言句子)的信息汇聚到另一个序列(例如,目标语言句子)中。