是阿琛啦-优快云博客

原创关于cuda矩阵乘法的一点小小理解

在上面的代码中是在Host(cpu端)进行的矩阵数据内存数据与线程索引（ThreadIDx）的一一对应。举个例子，下面的汉是实现了图片卷积核的图像的一维化数据存储，核中每个单元参数是k float类型。cuda的硬件层级划分只是逻辑上的划分和FPGA的硬件划分是完全不同的。首先要搞清楚的cuda的三级线程（thread）的划分然后搞清楚。<<< >>> 中所定义的划分方案只是影响该函数的并行程度。真正的对应内存上的数据执行什么操作是和线程一一对应的，和。参数可以得到不同的运算性能。

2024-04-23 18:24:53 260

原创 cudnn实现前向卷积运算（入门向）

注意有个小坑：cudnn的更新比较快所以在自己的环境下往往需要对算法进行修改，主要是同样功能的函数名称会有变化。可以去英伟达官网的cudnn网页查看各个API的功能。最后上面的程序运行结果是这样哒！算法的设计流程大致如下。

2024-04-23 17:57:38 1531 1

原创利用yolo-v5master的自带export.py直接将yolov5-master版本中训练好的pt文件输出为指定的格式，包括engine(tensorrt)以及onnx格式(完整流程，手把手)

py文件自带调用onnx的接口的功能，也自带调用tensorrt转化的功能，只需要设定相应的pt文件路径，以及输出文件的存储路径即可。为什么要出这篇文章呢，本来是想把pt文件输出为onnx，然后转化为tensorRT所需的engine文件进行优化加速，折腾了半天发现多此一举了。下载完毕打开CUDA安装的目录（菜单的程序以及应用可以搜到说明电脑里已经装了CUDA，如果没有则需要先安装CUDA）选择上面的这个版本下载，接下来操作按照下面这位博主的即可，只不过需要将指令换成自己对应的文件名。

2024-03-19 17:18:00 2238 8

原创超简单的使用mmyolov5 balloon实验的讲解

mmyolov5 执行命令

2023-02-21 16:56:50 206

原创 mmyolov5的简化解读

数据阈值处理（data_preprocessor）:mean 归一化参数 std（归一化标准差）图像格式的转化。widen_factor网络宽度的缩放因子归一化层配置（norm_cfg）激活函（act_cfg）的配置。）: 主干网络的类别 deepen_factor网络深度的缩放因子。type(neck的种类，要对应相应的yolo版本，注意官方的命名规则)Out_channels # 输出通道数，与 Head 的输入通道一致。# 控制网络结构深度的缩放因子。

2023-02-21 16:41:50 508

原创 pytorch 下安装Tensorboard 和 pycocotools (Win11)

pip安装TensorboardpycocotoolsWin11

2022-11-17 11:22:14 575

原创学习Pytorch导入本地下载的数据集以CIFAR-10为例

pytorch 导入数据集本地数据集

2022-11-12 15:03:10 2821 1

qq_58135699的博客