自注意力和位置编码

文档摘要

自注意力和位置编码 :label: 在深度学习中，经常使用卷积神经网络（CNN）或循环神经网络（RNN）对序列进行编码。想象一下，有了注意力机制之后，我们将词元序列输入注意力池化中，以便同一组词元同时充当查询、键和值。具体来说，每个查询都会关注所有的键－值对并生成一个注意力输出。由于查询、键和值来自同一组输入，因此被称为自注意力（self-attention） :cite: ，也被称为内部注意力（intra-attention） :cite: 。本节将使用自注意力进行序列编码，以及如何使用序列的顺序作为补充信息。