4.2.2 Decoding 阶段:逐 Token 生成与自回归机制 4.2.2 Decoding 阶段:逐 Token 生成与自回归机制 在大语言模型(LLM)推理的宏大叙事中,如果说 Prefill 阶段是壮丽的“蓄势”,那 Decoding 阶段就是精妙的“落子”。这一阶段直接决定了模型生成的文本是否流畅、是否符合逻辑,以及用户感知到的响应速度。作为一名深入一线的研发工程师,我们不仅要理解模型“自回归”的数学原理,更需在代码层面掌握如何高效地驱动这一过程,如何在每一轮迭代中平衡生成质量与计算效率。这不仅是算法问题,更是系统工程的艺术。 自回归:时间的单向维度 自回归机制是大语言模型生成的核心逻辑,其本质在于对概率分布的链式法则分解。