注意力汇聚:Nadaraya-Watson 核回归 :label: 上节介绍了框架下的注意力机制的主要成分 :numref: : 查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚; 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 本节将介绍注意力汇聚的更多细节, 以便从宏观上了解注意力机制在实践中的运作方式。 具体来说,1964年提出的Nadaraya-Watson核回归模型 是一个简单但完整的例子,可以用于演示具有注意力机制的机器学习。 [生成数据集] 简单起见,考虑下面这个回归问题: 给定的成对的“输入-输出”数据集 $\{(x1, y1), \ldots, (xn, yn)\}$, 如何学习$f$来预测任意新输入$x$的输出$\hat{y} = f(x)$?