3.3 位置编码(Positional Encoding)


文档摘要

3.3 位置编码(Positional Encoding) 3.3 位置编码(Positional Encoding) 3.3.1 引言:为何需要位置信息? 在深入探讨位置编码的具体实现之前,我们必须理解其存在的根本原因。Transformer模型的核心组件——自注意力(Self-Attention)机制,其设计是排列不变性(permutation invariant)的。这意味着,无论输入序列中的词语顺序如何,只要词语集合相同,自注意力层计算出的注意力权重和输出表示在理论上是相同的(忽略了残差连接和层归一化等细节)。例如,句子 "猫追老鼠" 和 "老鼠追猫" 对于一个纯粹的自注意力层来说,其内部计算过程无法区分哪个词先出现,哪个词后出现。


发布者: 作者: 转发
评论区 (0)
U