1.1.2 推理延迟（Latency）与吞吐量（Throughput）的权衡

文档摘要

1.1.2 推理延迟（Latency）与吞吐量（Throughput）的权衡在深度学习推理加速的战场上，延迟（Latency）与吞吐量（Throughput）从来不是一对温顺的孪生兄弟——它们更像一对在钢丝上跳探戈的舞者：一个前倾，另一个必然后仰；一方提速，另一方就可能失衡跌落。你见过模型在毫秒级响应中完成单次请求，却在并发压测时吞吐骤降50%吗？会员。《1.1.2 推理延迟（Latency）与吞吐量（Throughput）的权衡》收录于灏天文库文集《TensorRT加速推理》，提供技术教程、实践指南与问题解决方案，支持在线阅读、全文检索与知识沉淀，助力开发者系统化学习。文档编号61824。

该文档为会员专享，请先登录或注册后再查看

登录注册