目录 二元语法与中文分词 3.1 语言模型 3.2 中文分词语料库 3.3 训练与预测 3.4 HanLP分词与用户词典的集成 3.5 二元语法与词典分词比较 二元语法与中文分词 上一章中我们实现了块儿不准的词典分词,词典分词无法消歧。给定两种分词结果“商品 和服 务”以及“商品 和 服务”,词典分词不知道哪种更加合理。 我们人类确知道第二种更加合理,只因为我们从小到大接触的都是第二种分词,出现的次数多,所以我们判定第二种是正确地选择。这就是利用了统计自然语言处理。统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是二元语法的统计语言模型。 3.1 语言模型 什么是语言模型 模型指的是对事物的数学抽象,那么语言模型指的就是对语言现象的数学抽象。