文章目录
1. TensorRT 简介
- TensorRT可以帮助你把训练好的AI模型,部署到边端Nvidia的设备,并实现对模型的量化与加速。
- TensorRT基于CUDA和cudnn
CUDA看作是一个工作台,上面配有很多工具,如锤子、螺丝刀等。
cuDNN是基于CUDA的深度学习GPU加速库,它就是个锤子。
CUDA这个工作台买来的时候,并没有送锤子。
想要在CUDA上运行深度神经网络,就要安装cuDNN,这样才能使GPU进行深度神经网络的工作,工作速度相较CPU快很多。

2. TensorRT 加速的原理
量化
TensorRT可以对模型进行int8,float16的量化,通过在**减少计算量 和 保持精度 **之间达到一个理想的平衡点。
网络结构优化
TensorRT同时对网络结构进行了重构和优化
- 通过解析模型,将网络中无用的输出层消除以减小计算。
- 对网络结构的垂直整合,举个例子,将CONV, BN, RELU 三个层融合在了一起。
- 对网络结构的水平整合。将输入为相同的张量 和执行 相同操作 的层融合在一起。
- 对 CON

本文介绍了TensorRT如何通过量化和网络结构优化提升AI模型在Nvidia设备上的性能。讲解了TensorRT的工作原理、CUDA/cuDNN背景以及TensorRT的工作流程,包括引擎构建和推理阶段的具体步骤。
最低0.47元/天 解锁文章
2686

被折叠的 条评论
为什么被折叠?



