自注意力和位置编码 :label: 在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。 想象一下,有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention) :cite: , 也被称为内部注意力(intra-attention) :cite: 。 本节将使用自注意力进行序列编码,以及如何使用序列的顺序作为补充信息。