
cuda与tensorRT
文章平均质量分 92
谢白羽
无论东西
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型分布式训练笔记(基于accelerate+deepspeed分布式训练解决方案)
背景介绍海量的训练数据给大模型训练带来了海量的计算需求,主要体现在变大的模型对显存的依赖逐渐加剧单卡场景如何解决显存问题1 )可训练参数量降低①参数高效微调--PEFT②prompt-Tuning、Prefix-Tuning、Lora等 2 )参数精度降低①低精度模型训练--Bitsandbytes②半精度、INT8、NF4分布式训练简介指的是系统或计算任务被分布到多个独立的节点或计算资源上进行处理,而不是集中在单个节点或计算机上。原创 2025-06-03 17:27:45 · 1510 阅读 · 0 评论 -
YOLOv8分割onnx实战及tensorRT部署(使用parser)
③过程:要活的检测到的物体最终掩码,首先需要从第一个输出output0中选择最佳概率,根据物体掩码索引去第二个坐标掩码匹配,将第二个输出output1的物体掩码的x和y插值到input输入图像上,如果输入尺寸为640x640像素,则需要将掩码放大到4倍以适应输入图像。参数二:116=4+80+32,4表示边界框坐标和宽度长度,80表示各个类别的概率,32表示32个掩码原型的系数置信度coefficients。设置阈值t,大于这个阈值就删掉,小于这个阈值就保留,若t取值0.5,那只有b5被保留。原创 2025-05-30 21:02:14 · 295 阅读 · 0 评论 -
YOLOv8目标检测实战-(TensorRT原生API搭建网络和使用Parser搭建网络)
①Conv = conv+BN+SiLU,stride=2表示下采样,在backbone中有5个stride=2的conv模块,2的5次方是32,640/32=20,所以就有了20x20的特征图。上采样:上采样将深层特征图的分辨率提高(如从20×20上采样到40×40),与浅层特征拼接,保留细节信息的同时增强语义表达能力。②Bottleneck有add为true和false两种,⑤因为有两种上采样的存在,所以输出有三种维度的特征图。③C3-n,n表示有n个Bottleneck。④SPFF:改进的空间计算。原创 2025-05-30 20:56:12 · 774 阅读 · 0 评论 -
Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)
设计思想和特点1、支持多种机器学习框架2、支持多种部署场景3、高性能推理4、灵活的模型管理5、可扩展性6、强大的客户端支持。原创 2025-05-29 13:00:05 · 569 阅读 · 0 评论 -
YOLOv8模型剪枝笔记(DepGraph和Network Slimming网络瘦身)
①准备基础环境②安装PyTorch③克隆和安装YOLOv8①准备数据集②修改配置文件原创 2025-05-22 19:41:05 · 274 阅读 · 0 评论 -
stable diffusion 量化加速点
①用代码将onnx转为trt文件,或用下面指令转成trt文件。基本只看GPU计算时间的最低耗时。②转成trt文件后,再用来测速。1)静态shape测速。2)动态shape测速。原创 2025-04-06 21:30:42 · 450 阅读 · 0 评论 -
CUDA补充笔记
【代码】CUDA补充笔记。原创 2024-11-22 17:27:03 · 344 阅读 · 0 评论 -
CUDA与TensorRT学习六:模型部署-CNN、模型部署-YOLOv8检测器、部署BEVFusion模型
## 一、模型部署-CNN## 二、模型部署-YOLOv8检测器## 三、部署BEVFusion模型原创 2024-10-05 03:17:53 · 872 阅读 · 0 评论 -
CUDA与TensorRT学习五:TensorRT的C++或python API的介绍
## 一、MINISUT-model-build-infer## 二、build-model## 三、infer-model## 四、TensorRT-network-structure## 五、build-model-from-scratch## 六、build-trt-module## 七、custom-trt-module## 八、plugin-unit-test(python+cpp)原创 2024-10-05 03:15:43 · 669 阅读 · 1 评论 -
CUDA与TensorRT学习四:模型部署基础知识、模型部署的几大误区、模型量化、模型剪枝、层融合
## 一、模型部署基础知识## 二、模型部署的几大误区## 三、模型量化## 四、模型剪枝## 五、层融合原创 2024-10-05 03:12:11 · 686 阅读 · 0 评论 -
pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍
与之前的回归模型的区别①得到的结果是不同的②使用的损失函数也是不同的学习目的:Mnist分类任务①网络基本构建与训练方法,常用函数解析②torch.nn.functional模块③nn.Module模块①有可学习的参数用Module:卷积层、②其他情况用functional:激活函数、损失函数(分类任务一般用交叉相乘作为损失函数:cross_entropy)定义函数定义参数bs:也就是batch_size实际训练流程,并打印结果。原创 2024-09-23 00:51:58 · 1549 阅读 · 0 评论 -
pytorch学习笔记一:作用、安装和基本使用方法、自动求导机制、自制线性回归模型、常见tensor格式、hub模块介绍
x或x词向量:用多维的向量数值表达一个词的意思介绍调用别人训练好的模型举例①比如说选择对象识别的模型②点开实验环境③会有怎么使用的介绍有很多模型使用说明。原创 2024-09-20 00:47:54 · 968 阅读 · 0 评论 -
CUDA与TensorRT学习三:TensorR模块、导出onnx并分析、刨析onnx的proto结构、onnx注册算子、不同方式导出onnx、trtexec分析log
文章目录一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trtexec log分析一、TensorRT概述二、TensorRT应用场景三、TensorRT模块四、导出并分析ONNX五、剖析ONNX架构并理解Protobuf六、ONNX注册算子的方法七、快速分析开源代码并导出ONNX八、使用trtexec九、trte原创 2024-09-05 00:09:18 · 406 阅读 · 0 评论 -
CUDA与TensorRT学习二:CUDA硬件信息获取、Nsight system和Nsight compute、共享内存和bank conflict,预处理后处理、stream和event、双线性插
一、理解CUDA的grid和Block1)第一个cuda项目二、理解.cu和.cpp的相互引用及Makefile三、利用CUDA矩阵乘法(matmul)计算、Error Handle 及硬件信息获取1)矩阵乘法2)Error Handle3)硬件信息获取四、安装Nsight system and compute五、共享内存、Bank Conflict原因和解决方法、TRT用Cuda进行预处理/后处理来加速、Stream 与Event(用Cuda写流提高并发性)六、双线性插值与仿射变换原创 2024-09-03 00:36:50 · 1121 阅读 · 0 评论 -
CUDA与TensorRT学习一:并行处理与GPU体系架构
## 一、并行处理简介## 二、GPU并行处理## 三、环境搭建## 四、CUDA cuDNN TRT版本选择## 五、常用软件安装## 六、服务器的环境配置## 七、编辑器的环境配置原创 2024-08-31 18:37:01 · 590 阅读 · 0 评论