语言建模


文档摘要

语言建模 语义嵌入,如Word2Vec和GloVe,实际上是迈向语言建模的第一步——创建能够以某种方式“理解”(或“表示”)语言本质的模型。 课前测验 语言建模背后的主要思想是通过无监督的方式在未标记的数据集上对其进行训练。这很重要,因为我们可以获得大量未标记的文本,而标记文本的数量将始终受到我们能够花费在标注上的精力的限制。通常,我们可以构建能够预测缺失单词的语言模型,因为很容易从文本中屏蔽一个随机单词并将其用作训练样本。 训练嵌入 在之前的例子中,我们使用了预训练的语义嵌入,但看看这些嵌入是如何训练的会很有趣。有几种可能的方法可以使用: N-Gram 语言建模,当我们通过查看前面的N个单词来预测一个单词时(N-gram) 连续词袋(CBoW),当我们预测一个单词序列 $W{-N}$, .


发布者: 作者: 转发
评论区 (0)
U