1.3.1 NVIDIA 推理生态(CUDA, cuDNN, Triton)中的核心作用 在推理加速的工业战场上,TensorRT 不是某支精锐突击队,而是整座军工厂的总调度中心——它不直接开火,却决定每一发炮弹的装药配比、引信时序与弹道校准;它不训练模型,却将 PyTorch 的千行浮点计算图,压缩成一张仅含数百个高度融合 kernel 的、专为 NVIDIA GPU 硬件寄存器与 warp 调度器量身定制的“战地指令集”。当我们在生产环境里谈论“端到端推理延迟压到 8.2ms”、“吞吐突破 1240 QPS”、“显存占用从 3.8GB 降至 1.