9.1 并发   我们日常使用 ChatGPT 等大语言模型(LLM)应用来提升工作效率,或者通过模型厂商提供的 API 来开发项目。那么,这些服务是如何确保在生产环境中应对每分钟数万次乃至更多请求的同时,还能为全球用户提供始终如一的良好体验呢?这离不开先进的并发处理技术的支持。 推理过程   LLM 推理分为两部分: 预填充阶段(Prefill) 和生成阶段(Generation)。 1.1 预填充阶段   在预填充阶段所做的事有:处理输入 prompt 的所有 tokens 并行计算所有输入 tokens 的 attention,生成并缓存 Key-Value(KV cache)。通常耗时较长,但只需执行一次。 1.