6.3.1 投机采样（Speculative Decoding）：以小模型加速大模型

文档摘要

6.3.1 投机采样（Speculative Decoding）：以小模型加速大模型 6.3.1 投机采样：以小模型加速大模型在大模型推理的漫长征途中，我们时常面临一个看似无解的矛盾：为了获得更精准、更智能的回答，我们需要参数规模庞大的模型；但庞大的参数量意味着巨大的计算开销和内存带宽压力，导致生成延迟居高不下。这种“自回归”的解码方式，就像一位谨慎的作家，每写下一个字都要深思熟虑，查阅整本字典，虽然准确，却慢得让人心焦。投机采样技术正是在这种背景下横空出世的破局者，它不试图改变大模型本身的“体重”，而是通过巧妙的“以小博大”策略，用轻量级模型作为先锋，大幅缩短推理时间。