2.3 分词、词干提取与词形还原


文档摘要

2.3 分词、词干提取与词形还原 2.3 分词、词干提取与词形还原 在文本分类和情感分析任务中,原始的文本数据通常是非结构化的字符串序列。为了让机器学习模型能够理解和处理这些文本,我们需要将其转换为结构化的数值表示。这个转换过程的第一步,也是至关重要的一步,就是将连续的文本流分解成更小的、有意义的单元。分词(Tokenization)、词干提取(Stemming)和词形还原(Lemmatization)正是实现这一目标的核心技术。它们的目的在于将文本分解、规范化,从而减少词汇的变体,降低特征空间的维度,并提高模型的泛化能力。 2.3.1 分词 (Tokenization) 定义与目的 分词是将一段连续的文本切分成一系列离散的、被称为“标记”(tokens)的单元的过程。


发布者: 作者: 转发
评论区 (0)
U