1.2.1 TensorRT 的定义:高性能深度学习推理 SDK TensorRT 不是“又一个推理框架”,也不是“NVIDIA 推出的另一个 CUDA 工具包插件”。它是一套以硬件为原点、以延迟为标尺、以精度为契约的编译时推理优化系统——这句话不是修辞,而是其整个架构设计的源代码级注释。 当你在 PyTorch 中调用 并 后将模型导出为 ONNX,再用 构建引擎时,你表面上只执行了三行 Python 调用;但背后,TensorRT 正在对你模型的每一层、每一个张量、每一条内存路径,进行一场毫秒级的“司法听证”:这一层能不能融合?这个卷积核是否满足 Winograd 变换的可逆性条件?该激活函数的梯度流是否已被截断,从而允许将其与前序卷积做 Fused ReLU?