每天5分钟搞懂大模型的分词器tokenizer(一):word level,char level,subword level Token和Tokenizer 你应该知道大模型的输入输出的单位是token,不是单词,也不是字母【在中文语境,不是词,不是字】,那么,token是什么呢? 虽然我们经常直接用token,但有的文献会翻译为标记。下文中看到标记,代表token。 Token是使用Tokenizer(翻译为分词器)分词后的结果,Tokenizer是什么呢?Tokenizer是将文本分割成token的工具。 在大模型中,Tokenizer有三种常见的分词方式:word level,char level,subword level。我们会用几篇小短文来讲解这三种分词方式。