2.1 文本清洗与规范化 第二章 文本预处理 在自然语言处理(NLP)的流程中,原始文本数据往往包含大量的噪声、冗余信息以及不一致的表示形式。这些问题如果不加以处理,将严重影响后续特征工程、模型训练以及最终任务的性能。因此,文本预处理是NLP流程中至关重要的一步,它旨在将原始文本转换为机器更容易理解和处理的格式。本章将详细介绍文本预处理的关键技术。 2.1 文本清洗与规范化 原始文本数据通常是“脏”的,可能包含拼写错误、非标准符号、HTML标签、多余的空白字符、大小写混用等问题。