4.1.3 引导解码(Speculative Decoding、Assisted Generation) 4.1.3 引导解码(Speculative Decoding、Assisted Generation):从理论跃入产线的工程实践手记 你有没有在深夜调试一个7B模型的推理服务时,盯着 曲线发呆——明明显存只用了65%,吞吐却卡在12 token/s,而隔壁用相同硬件跑Llama-3-8B的同事,靠几行 就把延迟压到了280ms? 这不是玄学。这是引导解码(Speculative Decoding)在真实世界里甩出的第一记重拳。 它不是“更快的FlashAttention”,也不是“更省的KV Cache压缩”;