TensorRT 系列之入门篇-优化特点

最新推荐文章于 2025-07-04 01:47:19 发布

翻译最新推荐文章于 2025-07-04 01:47:19 发布 · 1.3k 阅读

·

0

·

文章标签：

#tensorRT #优点

AI 专栏收录该内容

10 篇文章

订阅专栏

本文探讨了TensorTR通过纵向与横向融合操作减少Kernel启动消耗及层间读写，预分配输出缓存避免转换，以及采用FP16或INT8精度计算降低显存占用与延迟，实现模型推理加速。在Resnet50网络上，TensorRT相比CPU和TensorFlow，分别提升了40倍和18倍的吞吐率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一 tensorTR对于kernel launch以及每层tensor data读取的速度不对称的问题的解决:
(1)(纵向融合)通过融合相同顺序的操作来减少Kernel launch的消耗以及避免层之间的读写操作.如卷积;bias和Relu层可以融合成一个kernel,这里称之为CBR
(2)(横向融合)TensorRT会去挖掘输入数据且filter大小相同但weights不同的层,对于这些层不是使用三个不同的kernel而是使用一个kernel来提高效率
(3)通过预分配输出缓存以及跳跃式的写入方式来避免这次转换

二在前向传播中采用FP16或者INT8精度计算从而获得更小的模型,低的显存占用率和延迟以及更高的吞吐率

优化结果

上图为基于Resnet50网络，分别在CPU、V100+TensorFlow、V100+TensorRT上进行推理时的性能比较，纵轴为每秒处理的图片数量。相较于CPU和TensorFlow，TensorRT可以带来40倍和18倍的吞吐率的提升，而这部分的提升只需要在拥有GPU的前提下使用TensorRT即可免费获得。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。