TensorRT 系列之入门篇-优化特点

本文探讨了TensorTR通过纵向与横向融合操作减少Kernel启动消耗及层间读写,预分配输出缓存避免转换,以及采用FP16或INT8精度计算降低显存占用与延迟,实现模型推理加速。在Resnet50网络上,TensorRT相比CPU和TensorFlow,分别提升了40倍和18倍的吞吐率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 tensorTR对于kernel launch以及每层tensor data读取的速度不对称的问题的解决:
(1)(纵向融合)通过融合相同顺序的操作来减少Kernel launch的消耗以及避免层之间的读写操作.如卷积;bias和Relu层可以融合成一个kernel,这里称之为CBR
(2)(横向融合)TensorRT会去挖掘输入数据且filter大小相同但weights不同的层,对于这些层不是使用三个不同的kernel而是使用一个kernel来提高效率
(3)通过预分配输出缓存以及跳跃式的写入方式来避免这次转换

二 在前向传播中采用FP16或者INT8精度计算从而获得更小的模型,低的显存占用率和延迟以及更高的吞吐率

优化结果

上图为基于Resnet50网络,分别在CPU、V100+TensorFlow、V100+TensorRT上进行推理时的性能比较,纵轴为每秒处理的图片数量。相较于CPU和TensorFlow,TensorRT可以带来40倍和18倍的吞吐率的提升,而这部分的提升只需要在拥有GPU的前提下使用TensorRT即可免费获得。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值