- 博客(16)
- 收藏
- 关注
原创 深度学习模型部署TensorRT加速(十):TensorRT部署分析与优化方案(一)
模型推理性能分析:使用工具如TensorRT Profiler、PyTorch Profiler、TensorFlow Profiler等,可以对模型的推理性能进行详细分析,包括推理时间、内存占用、吞吐量等指标。这些工具可以帮助确定模型中的瓶颈,进而优化模型和系统配置。经过上述学习,已经掌握了tensorrt的优化方案以及优化指标。可以针对性地对模型采取不同的优化方案进行改进,下章将介绍如何利用tensorrt提供的API进行性能数据和改进部署方案!!!!
2023-09-15 09:48:38
2858
原创 深度学习模型部署TensorRT加速(十一):TensorRT部署分析与优化方案(二)
经过整个篇幅学习,相信大家已经掌握了tensorrt的整套开发流程。!!!PS:纯粹为学习分享经验,不参与商用价值运作,若有侵权请及时联系!!!
2023-09-15 09:48:27
1264
1
原创 深度学习模型部署TensorRT加速(九):TensorRT部署TransFormer模型
经过上述几章的学习,已经掌握了tensorrt的部署原理与实际操作。然而这只是最表面层的部署工作,实际部署过程中还会涉及对性能进行分析,并且针对性对模型进行改进,下章将逐步介绍如何利用tensorrt进行性能推理和优化部署方案!!!!PS:纯粹为学习分享经验,不参与商用价值运作,若有侵权请及时联系!!!
2023-09-07 08:53:28
1183
1
原创 深度学习模型部署TensorRT加速(八):TensorRT部署目标检测YOLOv5,YOLOv7模型
本节将展示如何部署一个深度学习目标检测模型,以最火热的YOLO系列为例进行具体展示。
2023-09-07 08:53:12
892
1
原创 深度学习模型部署TensorRT加速(七):TensorRT部署图像分类模型
准备阶段环境设置:确保已经安装了 TensorRT、CUDA 和其他必要的依赖。模型转换:如果模型不是 ONNX 格式,需要将其转换为 ONNX 格式。许多深度学习框架(如 PyTorch、TensorFlow)都提供了工具或方法来进行这一转换。部署阶段加载 ONNX 模型:使用 TensorRT 的 API 加载 ONNX /WTS格式的模型。优化模型:TensorRT 会对模型进行一系列优化,以提高推理速度。这通常包括层融合、精度调整等。生成引擎。
2023-09-07 08:52:32
836
1
原创 深度学习模型部署TensorRT加速(六):TensorRT部署自定义CNN模型
目前比较成熟的分类模型有VGG(Visual Geometry Group)、ResNet(Residual Network)、InceptionNet、MobileNet、DenseNet、SqueezeNet等,根据不同的应用场景和需求可以选择最适合的模型进行分类部署。并且此类模型一般具有成熟的封装库,可以直接在Torch上调用。而且针对不同模型,官方都给出了操作实例,可以直接搜索相关经典模型代码进行解析。
2023-09-06 09:57:34
478
1
原创 深度学习模型部署TensorRT加速(五):TensorRT部署流程及基本使用
目录篇章五:TensorRT的应用场景及部署模块应用一、TensorRT 部署流程:二、构建ResNet 模型部署及推理PS:纯粹为学习分享经验,不参与商用价值运作,若有侵权请及时联系!!!下一篇内容预告:深度学习模型部署TensorRT加速(六):TensorRT部署自定义CNN模型深度学习模型部署TensorRT加速(七):TensorRT部署一个图像分类模型深度学习模型部署TensorRT加速(八):TensorRT部署目标检测YOLO模型回顾:深度学习模型部署TensorRT加速(三): Tenso
2023-09-06 09:57:25
4921
1
原创 深度学习模型部署OpenVINO加速--OpenVINO部署YOLOv5,YOLOv7模型
OpenVINO工具套件全称是OpenVisualInference &NOptimization,是Intel于2018年发布的,开源、商用免费、主要应用于计算机视觉、实现神经网络模型优化和推理计算(Inference)加速的软件工具套件。由于其商用免费,且可以把深度学习模型部署在英尔特CPU和集成GPU上,大大节约了显卡费用,所以越来越多的深度学习应用都使用OpenVINO工具套件做深度学习模型部署。OpenVINO是一个开源工具包,可优化和部署深度学习模型。
2023-09-06 09:57:08
4999
3
原创 深度学习模型部署TensorRT加速(四):TensorRT的应用场景及部署模块应用
它提供了一套工具和接口,可以进行权重和激活的量化,并在优化过程中应用量化技术,以实现高效的深度学习推理。在自动调优层中,TensorRT会根据硬件平台的特性和配置,自动尝试不同的卷积算法和参数,然后进行性能评估和比较。自动调优层在TensorRT的优化过程中发挥着重要作用,它可以针对不同的硬件平台和配置选择最佳的卷积算法和参数,以实现最优的推理性能。通过优化和部署深度学习模型,TensorRT可以提供快速、低功耗的推理能力,使得在资源受限的设备上进行实时的边缘推理成为可能。
2023-09-05 10:17:03
919
原创 深度学习模型部署TensorRT加速(三): TensorRT模型部署及优化
TensorRT是NVIDIA开发的一个高性能的深度学习推理(Inference)优化器,可以为深度学习应用提供低延迟、高吞吐率的部署推理。可用于对超大规模数据中心、嵌入式平台或自动驾驶平台进行推理加速。TensorRT现已能支持等几乎所有的深度学习框架,将TensorRT和NVIDIA的GPU结合起来,能在几乎所有的框架中进行快速和高效的部署推理。从 TensorRT 3 开始,提供C++ API和Python API。可为深度学习推理应用进行加速。
2023-09-05 10:16:42
4203
原创 深度学习模型部署TensorRT加速(二):CUDA编程介绍
目录篇章二:CUDA编程介绍(简易版)一、CUDA编程简介二、CUDA中的线程与线束三、CUDA编程示例代码总结参考资料CUDA是由NVIDIA推出的并行计算架构,可充分利用GPU的并行计算引擎,以更高效地解决复杂计算问题。CUDA编程模型是一种异构计算模型,涉及CPU(主机)和GPU(设备)的协同工作。在CUDA中,主机代表了CPU及其内存,而设备代表了GPU及其内存。CUDA程序包含主机程序和设备程序,分别在CPU和GPU上执行。主机和设备之间可以进行数据通信,以便在它们之间传输数据。
2023-09-04 20:56:03
771
1
原创 Yolov 8源码超详细逐行解读+ 网络结构细讲(自我用的小白笔记)
以上就是今天要讲的内容,本文仅仅简单介绍了源码结构,后面还会持续更新讲解,由于这次写的太多了,怕大家看不过来。过段时间继续拆封代码并尝试用常见的pytorch原始框架复现缩减版yolov8。也许上面还有很多错误,欢迎大家指正!!!t=N658t=N658完整且详细的Yolov8复现+训练自己的数据集_咕哥的博客-优快云博客https://blog.youkuaiyun.com/chenhaogu/article/details/131161374?二、
2023-07-19 23:27:25
69946
39
原创 Efficientdet的复现+训练自己的数据集
efficientnet在工业检测展现出了极其强大的检测效果,与yolov3和yolov5为同一竞争赛道,曾连续霸版6个月以上,而已efficientnet为基础的其他改进模型在工业检测上也表征出适用性。官方源码的框架是基于tensortflow的,且复现的精度远远不及论文提及的精度。zylo117改进的pytorch代码在更容易复现,也更容易学习。复现源码:Yet-Another-EfficientDet-Pytorch/tutorial/train_logo.ipynb at master · zylo
2023-06-30 11:00:09
4288
5
原创 完整且详细的Yolov8复现+训练自己的数据集
datasets|-images|--train|--val|--test|-labels|--train|--val|--test1.Yolo要求的数据标签为.txt2.与Yolov7 和v5 一样,可以使用labelme标注数据集,yolov8支持多种数据集格式,我是采用上面的格式跑通了,具体制作的过程可参考:(60条消息) YOLOv5系列 1、制作自己的数据集_yolov5数据集制作_冯璆鸣的博客-优快云博客。
2023-06-20 10:15:13
100030
89
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人