搞懂大模型的分词器(四)


文档摘要

每天5分钟搞懂大模型的分词器tokenizer(四):Unigram 在 SentencePiece 中经常使用 Unigram 算法,该算法是 AlBERT、T5、mBART、Big Bird 和 XLNet 等模型使用的标记化算法。 alt text 与 BPE 和 WordPiece 相比,Unigram是不同的思路: 它从一个较大的词汇表开始,然后从中删除token,直到达到所需的词汇表大小。 在训练的每一步,Unigram 算法都会在给定当前词汇的情况下计算语料库的损失。 然后,对于词汇表中的每个token,算法计算如果删除该token,整体损失会增加多少,并寻找损失最少的token。


发布者: 作者: 转发
评论区 (0)
U