3.3 位置编码（Positional Encoding）

文档摘要

3.3 位置编码（Positional Encoding） 3.3 位置编码（Positional Encoding） 3.3.1 引言：为何需要位置信息？在深入探讨位置编码的具体实现之前，我们必须理解其存在的根本原因。Transformer模型的核心组件——自注意力（Self-Attention）机制，其设计是排列不变性（permutation invariant）的。这意味着，无论输入序列中的词语顺序如何，只要词语集合相同，自注意力层计算出的注意力权重和输出表示在理论上是相同的（忽略了残差连接和层归一化等细节）。例如，句子 "猫追老鼠" 和 "老鼠追猫" 对于一个纯粹的自注意力层来说，其内部计算过程无法区分哪个词先出现，哪个词后出现。