2.3 词形还原与词干提取


文档摘要

2.3 词形还原与词干提取 2.3 词形还原与词干提取 在自然语言处理(NLP)的文本预处理阶段,一个常见的挑战是处理词语的不同形式。例如,“run”、“running”、“ran” 都表达了“跑”这个基本概念;“cat” 和 “cats” 都指代“猫”。为了在分析时将这些具有相同基本含义但形式不同的词语视为一个单元,我们需要进行词形归一化。词形归一化主要有两种技术:词干提取(Stemming)和词形还原(Lemmatization)。它们的目标都是减少词语的屈折变化和派生形式,从而降低特征空间的维度,提高模型的泛化能力。 2.3.1 词干提取(Stemming) 定义: 词干提取是一种相对简单、基于规则的启发式技术,用于移除词语的后缀,从而得到词语的“词干”(stem)。


发布者: 作者: 转发
评论区 (0)
U