近似训练 :label: 回想一下我们在 :numref: 中的讨论。跳元模型的主要思想是使用softmax运算来计算基于给定的中心词$wc$生成上下文字$wo$的条件概率(如 :eqref: ),对应的对数损失在 :eqref: 给出。 由于softmax操作的性质,上下文词可以是词表$\mathcal{V}$中的任意项, :eqref: 包含与整个词表大小一样多的项的求和。因此, :eqref: 中跳元模型的梯度计算和 :eqref: 中的连续词袋模型的梯度计算都包含求和。不幸的是,在一个词典上(通常有几十万或数百万个单词)求和的梯度的计算成本是巨大的! 为了降低上述计算复杂度,本节将介绍两种近似训练方法:负采样和分层softmax。