2.3.2 预填充与解码阶段优化

文档摘要

2.3.2 预填充与解码阶段优化在大语言模型推理的工程实践中，预填充（Prefill）与解码（Decoding）从来不是两个孤立阶段——它们是一体两面的呼吸：前者是深吸一口气，将整段提示词（prompt）一次性“泵入”模型上下文；后者则是匀速呼气，在每个时间步吐出一个 token，维持对话的连贯脉搏。会员。《2.3.2 预填充与解码阶段优化》收录于灏天文库文集《vLLM》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号59161。

该文档为会员专享，请先登录或注册后再查看

登录注册