3.3.3 吞吐量（Throughput）与延迟（Latency）模式权衡

文档摘要

3.3.3 吞吐量（Throughput）与延迟（Latency）模式权衡在大模型推理服务的工程实践中，吞吐量（Throughput）与延迟（Latency）从来不是一对非此即彼的“选择题”，而是一组彼此缠绕、动态耦合、需在具体软硬件约束下反复校准的系统级张力变量。当你在深夜调试一个Qwen2-7B-Instruct服务时，发现P99延迟从380ms骤升至1. 会员。《3.3.3 吞吐量（Throughput）与延迟（Latency）模式权衡》收录于灏天文库文集《OpenVINO模型部署》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号51124。

该文档为会员专享，请先登录或注册后再查看

登录注册