搞懂大模型的分词器（一）

文档摘要

每天5分钟搞懂大模型的分词器tokenizer（一）：word level，char level，subword level Token和Tokenizer 你应该知道大模型的输入输出的单位是token，不是单词，也不是字母【在中文语境，不是词，不是字】，那么，token是什么呢？虽然我们经常直接用token，但有的文献会翻译为标记。下文中看到标记，代表token。 Token是使用Tokenizer（翻译为分词器）分词后的结果，Tokenizer是什么呢？Tokenizer是将文本分割成token的工具。在大模型中，Tokenizer有三种常见的分词方式：word level，char level，subword level。我们会用几篇小短文来讲解这三种分词方式。