(1)TensorRT支持kFLOAT(float32)、kHALF(float16)、kINT8(int8)三种精度的计算,在使用时通过低精度进行网络推理,达到加速的目的。
(2)TensorRT对网络结构进行重构,把一些能合并的运算合并在一起,根据GPU的特性做了优化。具体方法为(a)垂直合并;(b)水平合并。
(a)垂直合并:垂直合并是将目前主流神经网络结构的Conv、BN、Relu三个层融合为一个层。
(b)水平合并:水平合并是指将输入为相同张量和执行相同操作的层融合在一起。
(其实MNN能够加速的原因也是将卷积层、BN层、Relu层融合在一层,问题是这些 层是怎么融合的咧)