语言模型和数据集

文档摘要

语言模型和数据集 :label: 在 :numref: 中，我们了解了如何将文本数据映射为词元，以及将这些词元可以视为一系列离散的观测，例如单词或字符。假设长度为$T$的文本序列中的词元依次为$x1, x2, \ldots, xT$。于是，$xt$（$1 \leq t \leq T$）可以被认为是文本序列在时间步$t$处的观测或标签。在给定这样的文本序列时，语言模型（language model）的目标是估计序列的联合概率 $$P(x1, x2, \ldots, xT).$$ 例如，只需要一次抽取一个词元$xt \sim P(xt \mid x{t-1}, \ldots, x1)$，一个理想的语言模型就能够基于模型本身生成自然文本。