2.2 文本清洗与标准化(Text Cleaning & Normalization) 文本清洗(Text Cleaning)与文本标准化(Text Normalization)是自然语言处理(NLP)预处理阶段的核心步骤。其目标是将原始、杂乱、非结构化的文本数据转换为干净、一致且适合后续分析或建模的格式。这些步骤能显著提升模型的性能和鲁棒性。 2.2.1 文本清洗(Text Cleaning) 文本清洗旨在移除或替换文本中与语义无关或干扰分析的噪声元素。常见操作包括: HTML/XML 标签移除 使用如 等库解析并移除 HTML 或 XML 标签。 示例: → URL 与电子邮件地址标准化 将 URL 和邮箱替换为统一占位符,避免模型过度关注特定链接。