近似训练

文档摘要

近似训练 :label: 回想一下我们在 :numref: 中的讨论。跳元模型的主要思想是使用softmax运算来计算基于给定的中心词$wc$生成上下文字$wo$的条件概率（如 :eqref: ），对应的对数损失在 :eqref: 给出。由于softmax操作的性质，上下文词可以是词表$\mathcal{V}$中的任意项， :eqref: 包含与整个词表大小一样多的项的求和。因此， :eqref: 中跳元模型的梯度计算和 :eqref: 中的连续词袋模型的梯度计算都包含求和。不幸的是，在一个词典上（通常有几十万或数百万个单词）求和的梯度的计算成本是巨大的！为了降低上述计算复杂度，本节将介绍两种近似训练方法：负采样和分层softmax。