多头注意力 :label: 在实践中,当给定相同的查询、键和值的集合时, 我们希望模型可以基于相同的注意力机制学习到不同的行为, 然后将不同的行为作为知识组合起来, 捕获序列内各种范围的依赖关系 (例如,短距离依赖和长距离依赖关系)。 因此,允许注意力机制组合使用查询、键和值的不同 子空间表示(representation subspaces)可能是有益的。 为此,与其只使用单独一个注意力汇聚, 我们可以用独立学习得到的$h$组不同的 线性投影(linear projections)来变换查询、键和值。 然后,这$h$组变换后的查询、键和值将并行地送到注意力汇聚中。 最后,将这$h$个注意力汇聚的输出拼接在一起, 并且通过另一个可以学习的线性投影进行变换, 以产生最终输出。