8.3.2 TensorRT加速原理

文档摘要

TensorRT加速原理一、加速的必要性图1. Training VS Inference 如上图所示，训练（training）是双向运算，而推理（inference）为单向运算。为了提高训练速度，会使用多GPU分布式训练；而部署推理时，为了降低成本，往往使用单个GPU机器或嵌入式平台（比如 NVIDIA Jetson）进行部署；在实际项目中，一个项目可能会使用多个模型，而模型使用的框架也不能确保统一化。使用TensorRT加速最直接的效果如下：加快推理速度，降低延迟。推理框架统一化，方便部署。二、优化原理图2. 优化原理 TensorRT优化方法主要有以上5种方法，接下来重点介绍前两种：（一）层间融合或张量融合（Layer & Tensor Fusion）图3.

TensorRT加速原理

一、加速的必要性

图1. Training VS Inference

如上图所示，训练（training）是双向运算，而推理（inference）为单向运算。为了提高训练速度，会使用多GPU分布式训练；而部署推理时，为了降低成本，往往使用单个GPU机器或嵌入式平台（比如 NVIDIA Jetson）进行部署；在实际项目中，一个项目可能会使用多个模型，而模型使用的框架也不能确保统一化。

使用TensorRT加速最直接的效果如下：

加快推理速度，降低延迟。
推理框架统一化，方便部署。

二、优化原理

图2. 优化原理

TensorRT优化方法主要有以上5种方法，接下来重点介绍前两种：

（一）层间融合或张量融合（Layer & Tensor Fusion）

图3. GoogLeNetInception

上图是GoogLeNetInception模块的计算图，首先input后会有多个卷积，卷积完后有Bias和ReLU，结束后将结果concat（连接拼接）到一起，得到下一个input。

图4. 层间融合

优化内容：

纵向合并：首先是convolution, Bias和ReLU这三个操作可以合并成CBR，只占用一个CUDA核心，依次合并得到图1，其中包含四个1×1的CBR，一个3×3的CBR和一个5×5的CBR。
横向合并：合并三个相连的1×1的CBR为一个大的1×1的CBR，也只占用一个CUDA核心，得到图2。
消除concat层：直接连接到下一层的next input，减少传输吞吐，得到图3。
并发（Concurrency：如下图左半部分（max pool和1×1 CBR）与右半部分（大的1×1 CBR，3×3 CBR和5×5 CBR）彼此之间是相互独立的两条路径，本质上是不相关的，可以在GPU上通过并发来做，来达到的优化的目标。

（二）数据精度校准（Weight &Activation Precision Calibration）

PyTorch、TensorFlow 、MxNet等现有的深度学习框架，训练时多采用 Float 32（简称 FP32）的精度来表示权值、偏置、激活值等；由于部署推理不需要反向传播，可以适当降低数据精度，如降为FP16或INT8的精度，以此来减少计算量以及提升推理速度，同时压缩模型体积。

由于INT8只有256个不同的数值，使用INT8来表示 FP32精度的数值会丢失信息，造成性能下降。为此，TensorRT提供自动化校准（Calibration ），以最好的匹配性能将FP32精度的数据降低为INT8精度，最小化性能损失。具体流程如下：

图5. 数据精度校准步骤

下表为不同精度的动态范围：

图6. 动态范围

由上图对比可以看出，INT8 和 FP32 表示范围相差很大。需要最小化该转换过程的信息损失，TensorRT 采用是简单有效的线性量化的转换方式，表示为：

Tensor Values = FP32 scale factor * int8 array + FP32 bias

Nvidia 研究证明偏置项可以去掉，即：

Tensor Values = FP32 scale factor * int8 array

图7. 偏置项截断

如何确定scale factor的值？

最简单的方式如上图左，将FP32 tensor值中的 –|max| 和 |max|映射为 INT8 对应的-127 和 127，中间值按照线性关系进行映射，该方法也被称为不饱和（No saturation）映射。但实验表明，该方法精度损失很大。

因此，产生了饱和 (saturate) 映射的方式（上图右）：

相对于非饱和映射，不直接将两端的 ±|max|值映射到±127，而是选取一个阈值|T|, 将 ±|T| 映射为±127，其中 |T| < |max|。在 [ -|T|, |T| ] 区间外的值直接映射为 ±127，如上图右直接将三个红色 x 点映射为 -127，而在 [ -|T|, |T| ] 区间内的按照线性映射的方式。

TensorRT 开发者通过实验表明，权重 ( weights ) 采用非饱和映射，激活值采用饱和映射的方式相对全使用饱和映射效果会更好。

Why？Why？