注意力评分函数


文档摘要

注意力评分函数 :label: :numref: 使用了高斯核来对查询和键之间的关系建模。 :eqref: 中的 高斯核指数部分可以视为注意力评分函数(attention scoring function), 简称评分函数(scoring function), 然后把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,将得到与键对应的值的概率分布(即注意力权重)。 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。 从宏观来看,上述算法可以用来实现 :numref: 中的注意力机制框架。 :numref: 说明了 如何将注意力汇聚的输出计算成为值的加权和, 其中$a$表示注意力评分函数。 由于注意力权重是概率分布, 因此加权和其本质上是加权平均值。


发布者: 作者: 转发
评论区 (0)
U