文本预处理

文档摘要

文本预处理 :label: 对于序列数据处理问题，我们在 :numref: 中评估了所需的统计工具和预测时面临的挑战。这样的数据存在许多种形式，文本是最常见例子之一。例如，一篇文章可以被简单地看作一串单词序列，甚至是一串字符序列。本节中，我们将解析文本的常见预处理步骤。这些步骤通常包括：将文本作为字符串加载到内存中。将字符串拆分为词元（如单词和字符）。建立一个词表，将拆分的词元映射到数字索引。将文本转换为数字索引序列，方便模型操作。读取数据集首先，我们从H.G.Well的时光机器中加载文本。这是一个相当小的语料库，只有30000多个单词，但足够我们小试牛刀，而现实中的文档集合可能会包含数十亿个单词。