comments: true title: 分词 tokenize 前言 在 任务中,处理的数据是各种各样的文本。比如下方所示的古诗,但是,模型只认数字,其它一概不认,因此需要找到一种将原始文本转换为数字的方法。开门见山地说,这就是分词器(tokenizer)的职责。 在分词这块,不同的语言之间存在着天然的差异,本教程主要介绍中英文分词。 基于转换方式的不同,介绍两种语言下的两种粒度的分词器。 中文分词 基于字的分词器 基于字的分词器将文本拆分为单个字。 优点: 字典要小得多。虽然汉字的字数基数非常庞大,但是面对 以字为基础,浩如烟海的词语 算是小巫见大巫。 未登记字词(OOV)要少得多。