搞懂大模型的分词器（二）

文档摘要

每天5分钟搞懂大模型的分词器tokenizer（二）：BPE (Byte-Pair Encoding) BPE (Byte-Pair Encoding) 字节对编码 (BPE) 最初是作为一种压缩文本的算法开发的，最早是由Philip Gage于1994年在《A New Algorithm for Data Compression》一文中提出，后来被 OpenAI 在预训练 GPT 模型时用于分词器（Tokenizer）。它被许多 Transformer 模型使用，包括 GPT、GPT-2、RoBERTa、BART 和 DeBERTa。 alt text 本文尝试用最直观的语言和示例来解释 BPE 算法。本文的分词是在英文（拉丁语系）状态下进行的，中文状态下的分词会在后续的文章中讨论。