注意力汇聚：Nadaraya-Watson核回归

文档摘要

注意力汇聚：Nadaraya-Watson 核回归 :label: 上节介绍了框架下的注意力机制的主要成分 :numref: ：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚；注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。本节将介绍注意力汇聚的更多细节，以便从宏观上了解注意力机制在实践中的运作方式。具体来说，1964年提出的Nadaraya-Watson核回归模型是一个简单但完整的例子，可以用于演示具有注意力机制的机器学习。 [生成数据集] 简单起见，考虑下面这个回归问题：给定的成对的“输入－输出”数据集 $\{(x1, y1), \ldots, (xn, yn)\}$，如何学习$f$来预测任意新输入$x$的输出$\hat{y} = f(x)$？