2.3.2 预填充与解码阶段优化 在大语言模型推理的工程实践中,预填充(Prefill)与解码(Decoding)从来不是两个孤立阶段——它们是一体两面的呼吸:前者是深吸一口气,将整段提示词(prompt)一次性“泵入”模型上下文;后者则是匀速呼气,在每个时间步吐出一个 token,维持对话的连贯脉搏。但现实远比这个比喻残酷:Prefill 阶段常因长 prompt 触发显存爆炸,而 Decoding 阶段又因自回归特性陷入“单 token 轮询”的低效泥潭。