9.1.2 后续研究(v2、Prefix Caching)


文档摘要

9.1.2 后续研究(v2、Prefix Caching) 在大模型推理服务的工程实践中,我们常被一个问题反复叩问:当一个请求携带了长达数千 token 的系统提示(system prompt)与历史对话(chat history),而后续每次生成仅需追加几十个 token 的响应时——为什么每次 decode 都要从头计算整个 context 的 KV 缓存?这就像每次打开同一本《红楼梦》去读第 120 回,却坚持把前 119 回逐字重翻一遍;既耗电,又拖慢,更违背直觉。 这正是 Prefix Caching(前缀缓存)诞生的原始冲动。它不是某种高悬于论文云端的理论构想,而是工程师在深夜压测中被 P99 延迟刺醒后,用 、 和 一行行敲出来的生存策略。


发布者: 作者: 转发
评论区 (0)
U