基于词角度


文档摘要

基于词角度 知识体系 基于词角度的文本结构理解主要包括分词、词性标注和命名实体识别。对于文本未切分的语言,分词一般会作为自然语言处理的第一步。即使到了字粒度的 BERT 时代, WWM 效果也要更好一些。从大的方面看有两种不同的分词方式:基于词典和基于序列标注。后者也可用于词性标注和命名实体识别任务。 Questions 常用的分词方法有哪些? 常用分词方法有两种:基于词典的方法和基于序列标注的方法。前者又包括字符串匹配方法和统计语言模型方法;后者包括统计方法和深度学习方法。 字符串匹配分词的优缺点是什么? 优点:方法简单可控、速度快;缺点:难以解决歧义及新词问题。 结巴分词原理? 基于词典构造有向无环图,计算最大概率路径。新词发现使用 HMM,弥补了 Ngram 难以发现新词的不足。


发布者: 作者: 转发
评论区 (0)
U