搞懂大模型的分词器(五)


文档摘要

每天5分钟搞懂大模型的分词器tokenizer(五):SentencePiece 太好了,终于到了大模型中使用最广泛的分词器: SentencePiece了. alt text 之前介绍的分词器,英文(拉丁语系有空格)和中文(没有空格)会采用不同的分词方式,在大模型中,我们需要一个统一的分词器,这个分词器需要能够处理多种语言。 为此,我们需要一个统一的字符编码方式,这个编码方式需要能够处理多种语言,而且不会因为语言的不同而导致编码方式的不同。 SentencePiece SentencePiece是由Google开发的一种通用的分词器,它可以处理多种语言,它的名字就暗示了它的原理。 alt text 还记得之前的WordPiece吗?


发布者: 作者: 转发
评论区 (0)
U