语言模型和数据集


文档摘要

语言模型和数据集 :label: 在 :numref: 中, 我们了解了如何将文本数据映射为词元, 以及将这些词元可以视为一系列离散的观测,例如单词或字符。 假设长度为$T$的文本序列中的词元依次为$x1, x2, \ldots, xT$。 于是,$xt$($1 \leq t \leq T$) 可以被认为是文本序列在时间步$t$处的观测或标签。 在给定这样的文本序列时,语言模型(language model)的目标是估计序列的联合概率 $$P(x1, x2, \ldots, xT).$$ 例如,只需要一次抽取一个词元$xt \sim P(xt \mid x{t-1}, \ldots, x1)$, 一个理想的语言模型就能够基于模型本身生成自然文本。


发布者: 作者: 转发
评论区 (0)
U