1.1.2 推理延迟(Latency)与吞吐量(Throughput)的权衡 在深度学习推理加速的战场上,延迟(Latency)与吞吐量(Throughput)从来不是一对温顺的孪生兄弟——它们更像一对在钢丝上跳探戈的舞者:一个前倾,另一个必然后仰;一方提速,另一方就可能失衡跌落。你见过模型在毫秒级响应中完成单次请求,却在并发压测时吞吐骤降50%吗?你调试过TensorRT引擎明明配置了 ,实际QPS却卡死在120,而GPU利用率始终徘徊在35%吗?这些不是玄学,而是延迟-吞吐权衡(Latency-Throughput Trade-off)在硬件、框架、算法、调度四重奏中暴露出的真实节拍错位。 今天,我们不谈抽象定义,不列教科书式对比表。