- 博客(7)
- 收藏
- 关注
原创 关于cuda矩阵乘法的一点小小理解
在上面的代码中是在Host(cpu端)进行的矩阵数据内存数据与线程索引(ThreadIDx)的一一对应。举个例子,下面的汉是实现了图片卷积核的图像的一维化数据存储,核中每个单元参数是k float类型。cuda的硬件层级划分只是逻辑上的划分和FPGA的硬件划分是完全不同的。首先要搞清楚的cuda的三级线程(thread)的划分然后搞清楚。<<< >>> 中所定义的划分方案只是影响该函数的并行程度。真正的对应内存上的数据执行什么操作是和线程一一对应的,和。参数可以得到不同的运算性能。
2024-04-23 18:24:53
245
原创 cudnn实现前向卷积运算(入门向)
注意有个小坑:cudnn的更新比较快所以在自己的环境下往往需要对算法进行修改,主要是同样功能的函数名称会有变化。可以去英伟达官网的cudnn网页查看各个API的功能。最后上面的程序运行结果是这样哒!算法的设计流程大致如下。
2024-04-23 17:57:38
1280
1
原创 利用yolo-v5master的自带export.py直接将yolov5-master版本中训练好的pt文件输出为指定的格式,包括engine(tensorrt)以及onnx格式(完整流程,手把手)
py文件自带调用onnx的接口的功能,也自带调用tensorrt转化的功能,只需要设定相应的pt文件路径,以及输出文件的存储路径即可。为什么要出这篇文章呢,本来是想把pt文件输出为onnx,然后转化为tensorRT所需的engine文件进行优化加速,折腾了半天发现多此一举了。下载完毕打开CUDA安装的目录(菜单的程序以及应用可以搜到说明电脑里已经装了CUDA,如果没有则需要先安装CUDA)选择上面的这个版本下载,接下来操作按照下面这位博主的即可,只不过需要将指令换成自己对应的文件名。
2024-03-19 17:18:00
1910
8
原创 mmyolov5的简化解读
数据阈值处理(data_preprocessor):mean 归一化参数 std(归一化标准差) 图像格式的转化。widen_factor网络宽度的缩放因子 归一化层配置(norm_cfg)激活函(act_cfg)的配置。): 主干网络的类别 deepen_factor网络深度的缩放因子。type(neck的种类,要对应相应的yolo版本,注意官方的命名规则)Out_channels # 输出通道数,与 Head 的输入通道一致。# 控制网络结构深度的缩放因子。
2023-02-21 16:41:50
431
原创 pytorch 下安装Tensorboard 和 pycocotools (Win11)
pip安装TensorboardpycocotoolsWin11
2022-11-17 11:22:14
537
空空如也
mmdeploy环境配置相关
2023-04-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人