9.1.2 后续研究（v2、Prefix Caching）

文档摘要

9.1.2 后续研究（v2、Prefix Caching）在大模型推理服务的工程实践中，我们常被一个问题反复叩问：当一个请求携带了长达数千 token 的系统提示（system prompt）与历史对话（chat history），而后续每次生成仅需追加几十个 token 的响应时——为什么每次 decode 都要从头计算整个 context 的 KV 缓存？会员。《9.1.2 后续研究（v2、Prefix Caching）》收录于灏天文库文集《vLLM》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号59236。

该文档为会员专享，请先登录或注册后再查看

登录注册