TensorRT加速的原因：量化+网络结构优化

最新推荐文章于 2025-08-26 18:23:58 发布

原创

最新推荐文章于 2025-08-26 18:23:58 发布 · 589 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#TensorRT #Nvidia #AI #AI部署

本文介绍了TensorRT如何通过量化和网络结构优化提升AI模型在Nvidia设备上的性能。讲解了TensorRT的工作原理、CUDA/cuDNN背景以及TensorRT的工作流程，包括引擎构建和推理阶段的具体步骤。

文章目录

1. TensorRT 简介
2. TensorRT 加速的原理
- 量化
- 网络结构优化
3. TensorRT 的工作流程
- TensorRT引擎的构建：Build
- TensorRT引擎的推理：Infer

1. TensorRT 简介

TensorRT可以帮助你把训练好的AI模型，部署到边端Nvidia的设备，并实现对模型的量化与加速。
TensorRT基于CUDA和cudnn

CUDA看作是一个工作台，上面配有很多工具，如锤子、螺丝刀等。

cuDNN是基于CUDA的深度学习GPU加速库，它就是个锤子。

CUDA这个工作台买来的时候，并没有送锤子。
想要在CUDA上运行深度神经网络，就要安装cuDNN，这样才能使GPU进行深度神经网络的工作，工作速度相较CPU快很多。
请添加图片描述

2. TensorRT 加速的原理

量化

TensorRT可以对模型进行int8，float16的量化，通过在**减少计算量和保持精度 **之间达到一个理想的平衡点。

网络结构优化

TensorRT同时对网络结构进行了重构和优化

通过解析模型，将网络中无用的输出层消除以减小计算。
对网络结构的垂直整合，举个例子，将CONV, BN, RELU 三个层融合在了一起。
对网络结构的水平整合。将输入为相同的张量 和执行 相同操作 的层融合在一起。
对 CON

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

???/cy

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TensorRT系列 --加速原理

Mrrunsen的博客

02-10

2686

1. 加速的必要性如上图所示，训练（training）是双向运算，而推理（inference）为单向运算。为了提高训练速度，会使用多GPU分布式训练；而部署推理时，为了降低成本，往往使用单个GPU机器或嵌入式平台（比如 NVIDIA Jetson）进行部署；在实际项目中，一个项目可能会使用多个模型，而模型使用的框架也不能确保统一化。使用TensorRT加速最直接的效果如下：加快推理速度，降低延迟。推理框架统一化，方便部署。 2. 优化原理 TensorRT优化方

实战 | YOLOv8使用TensorRT加速推理教程（步骤 + 代码）

Color Space的博客

07-09

4167

这一步主要是安装根据自己的硬件安装GPU驱动，下载CUDNN等，以往的文章已经介绍过多次，可以点击下面的图片跳转到对应文章查看(点击图片跳转)。DeepSparse：专为稀疏模型设计的CPU推理运行时，可以有效加速基于WSL2的Windows环境下的推理。OpenVINO：Intel的推理工具套件，用于CPU上的模型优化和加速，支持量化和多种硬件加速。可以使用官网下载的模型也可以使用自己训练好的模型。保持框架最新：确保使用的深度学习框架版本是最新的，以获得最新的优化和bug修复。

参与评论您还未登录，请先登录后发表或查看评论

TensorRT推理加速

05-07

TensorRT Python API的使用，8bits量化，语义分割方面的应用。

TensorRT为什么快

whaosoft143ai的博客

02-11

875

对于计算部分是可以通过模拟的方式（类似指令集仿真器）计算得到性能的，但是tensor数据流在share/L2/Global Memory的流动过程就很难通过仿真计算得到精确结果，因为要被模拟的数据量和线程数过大，何况要尝试的可能性还很多，靠CPU仿真计算的思路就别想了。cuBLAS开发的很早，应该是CUDA生态最早的一批库了吧，但是随着深度学习的普及，Nvidia又在生态中加入了cuDNN库，它的层次更高，封装了到了网络层，所以其实TensorRT也可以直接调用优化好的cuDNN库中的Kernel？

TensorRT：加速深度学习推理的利器

最新发布

weixin_70208651的博客

08-26

844

TensorRT是NVIDIA精心打造的高性能深度学习推理框架，它运用层融合、精度量化、动态内存管理等核心技术，对模型进行深度优化。层融合能减少计算步骤与内存访问次数，精度量化在保证精度前提下降低数据精度以提升效率，动态内存管理可避免内存浪费与碎片化。其优势十分突出，不仅能将推理速度大幅提升数十倍，还能降低延迟、提高吞吐量，满足实时性需求。正因如此，它在自动驾驶、医疗影像分析、智能视频分析等对实时性要求极高的领域得到广泛应用，通过优化计算和内存访问模式，有力推动AI技术在实际场景高效落地。

TensorRT为什么能让模型跑快快

天马行空的博客

07-13

534

https://zhuanlan.zhihu.com/p/64933639

TensorRT 加速推理实践

Michael是个半路程序员

01-11

2244

本文环境 python 3.11.5 TensorRT 8.6.1。

异构计算平台下的TensorRT优化技巧：CPU+GPU混合部署方法

TensorRT是英伟达（NVIDIA）推出的深度学习推理引擎，专门用于优化深度学习模型的推理性能。在异构计算平台中，TensorRT可以与各种处理器结合使用，实现高效的模型推理加速。 ## 1.3 异构计算平台的优势和挑战异构...

tensorrt-rs:用于运行 TensorRT 加速深度学习模型的 Rust 库

05-30

- **模型优化**：TensorRT 通过分析模型结构，动态构建计算图，并使用多种技术如图优化、层融合、动态量化等来提高模型的运行效率。 - **量化**：TensorRT 支持 INT8 量化，将模型的计算由浮点运算转换为整数运算...

TensorRT中的模型量化技术详解

AI天才研究院

07-05

1202

在深度学习模型部署的世界里，性能与效率的平衡一直是开发者面临的核心挑战。TensorRT作为NVIDIA推出的高性能推理框架，其模型量化技术已成为解决这一挑战的关键方案。本文将带领读者深入探索TensorRT中的模型量化技术，从基础原理到实际部署，全面解析INT8量化的奥秘。我们将通过生动的比喻、直观的图表和可落地的代码示例，揭示如何在几乎不损失模型精度的前提下，将推理速度提升2-4倍，同时显著降低内存占用和功耗。

[模型压缩/加速]-tensorrt使用简介，tensorrt为什么这么快？为什么可以实现对模型的加速？

ai_faker的博客

05-14

3807

资源惯例先放资源 1.官方的tensorrt文档 2.tensorrt官方主页 3.tensorrt支持的操作 1.为什么需要模型加速模型加速越来越成为深度学习工程中的刚需了，最近的CVPR和ICLR会议中，模型的压缩和剪枝是受到的关注越来越多。毕竟所有的算法想要产生经济效益一定要考虑落地的情况，可能我们看很多论文提出的方法或者说github公布的代码大多关注精度及python环境下的FPS，但在实际的工程用在考虑精度的同时，速度也是十分重要的，且更多的公司越来越青睐python 训练，C++重写推

TensorRT 实现深度网络模型推理加速

01-14

通过本文档将会了解到深度学习的应用场景，常规的部署方法及带来的挑战，基于这些挑战 NVIDIA 给出的高效解决方案 TensorRT 的介绍，性能及案例分享。

使用TensorRT进行加速推理（示例＋代码）

weixin_47151388的博客

07-04

5994

TensorRT 是 NVIDIA 开发的一款高性能深度学习推理引擎，旨在优化神经网络模型并加速其在 NVIDIA GPU 上的推理性能。它支持多种深度学习框架，并提供一系列优化技术，以实现更高的吞吐量和更低的延迟。TensorRT（NVIDIA Tensor Runtime）是由 NVIDIA 开发的一款高性能深度学习推理库，用于在 NVIDIA GPU 上进行高效的深度学习推理。它可以优化深度学习模型并将其部署在生产环境中，以实现低延迟和高吞吐量的推理任务。1.1TensorRT 的主要特点模型优化。

1.了解tensorrt加速

qq_42178122的博客

12-03

2674

https://discuss.pytorch.org/t/onnx-export-failed-couldnt-export-operator-aten-adaptive-avg-pool1d/30204

深度学习为什么要resize_[深度学习]TensorRT为什么能让模型跑快快

weixin_39649490的博客

11-22

456

模型加速越来越成为深度学习工程中的刚需了，最近的CVPR和ICLR会议中，模型的压缩和剪枝是受到的关注越来越多。毕竟工程上，算法工程师的深度学习模型是要在嵌入式平台跑起来，投入应用的。在模型的推理（inference）过程中，计算速度是很重要的。比如自动驾驶，如果使用一个经典的深度学习模型，很容易就跑到200毫秒的延时，那么这意味着，在实际驾驶过程中，你的车一秒钟只能看到5张图像，这当然是很危险的...

TensorRT是如何做到比其他框架更快的？

CV_Autobot的博客

02-11

187

作者|糯盐编辑| 极市平台原文链接：https://zhuanlan.zhihu.com/p/666638357点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【模型部署】技术交流群本文只做学术分享，如有侵权，联系删文导读文章总结了TensorRT工具链以及TensorRT后端优化流程。一. 是什么？2016年Nvidia为自家GPU加速推理而...

TensorRT 加速部署

Mrrunsen的博客

02-10

2950

NVIDIA TensorRT 是用于高性能深度学习推理的软件开发工具包，能够以更高的吞吐量和更低的延迟运行深度学习模型。借助 TensorRT，可以优化当前主要框架（例如 Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet 和 PyTorch）中训练的神经网络模型，并将模型部署到大规模数据中心、嵌入式或产品平台中。在准确度几乎不损失的情况下，可以大大提升模型在端侧、边缘侧以及云端的推理速度，有利于产品部署。（1）TensorRT 加速原理 ...

tensorrt 加速原理

weixin_40355324的博客

09-13

721

第二是对于网络结构的垂直整合，即将目前主流神经网络的conv、BN、Relu三个层融合为了一个层，例如将图1所示的常见的Inception结构重构为图2所示的网络结构。第四是对于concat层，将contact层的输入直接送入下面的操作中，不用单独进行concat后在输入计算，相当于减少了一次传输吞吐。第三是对于网络的水平组合，水平组合是指将输入为相同张量和执行相同操作的层融合一起，如图2向图3的转化。

TensorRT加速原理

zhe_csdn的博客

03-14

1285

（1）TensorRT支持kFLOAT（float32）、kHALF（float16）、kINT8（int8）三种精度的计算，在使用时通过低精度进行网络推理，达到加速的目的。（2）TensorRT对网络结构进行重构，把一些能合并的运算合并在一起，根据GPU的特性做了优化。具体方法为（a）垂直合并;（b）水平合并。（a）垂直合并：垂直合并是将目前主流神经网络结构的Conv、BN、Relu三个层融合为一个层。（b）水平合并：水平合并是指将输入为相同张量和执行相同操作的层融合在一起。 (其实MNN能够加速的