目录 信息抽取 9.1 新词提取 9.2 关键词提取 9.3 短语提取 9.4 关键句提取 9.5 总结 信息抽取 信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。 本章按照颗粒度从小到大的顺序,介绍抽取新词、关键词、关键短语和关键句的无监督学习方法。 9.1 新词提取 概述 新词是一个相对的概念,每个人的标准都不一样,所以我们这里定义: 词典之外的词语(OOV)称作新词。 新词的提取对中文分词而言具有重要的意义,因为语料库的标注成本很高。