2.词典分词


文档摘要

目录 词典分词 2.1 什么是词 2.2 词典 2.3 切分算法 2.4 字典树 2.5 基于字典树的其它算法 2.6 HanLP的词典分词实现 词典分词 中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。 中文分词算法大致分为基于词典规则与基于机器学习这两大派。 2.1 什么是词 在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。 词的性质--齐夫定律:一个单词的词频与它的词频排名成反比。 2.2 词典 互联网词库(SogouW, 15万个词条)、清华大学开放中文词库(THUOCL)、HanLP词库(千万级词条) 这里以HanLP附带的迷你核心词典为例(本项目路径):data/dictionnary/CoreNatureDictionary.


发布者: 作者: 转发
评论区 (0)
U