caffe源码分析--math_functions.cu代码研究

最新推荐文章于 2024-11-11 20:45:00 发布

刘恅师教你学编程

最新推荐文章于 2024-11-11 20:45:00 发布

阅读量1.3w

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习（deep learning）文章标签：神经网络机器学习深度学习 caffe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lingerlanlan/article/details/24379465

深度学习（deep learning）专栏收录该内容

28 篇文章

订阅专栏

本文深入解析CUDA宏定义CUDA_KERNEL_LOOP的使用方式，并介绍如何利用这一技巧实现一个向量点积运算的CUDA核函数。讨论了当向量维数超过线程总数时，如何通过循环使单个线程处理多个元素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

其中用到一个宏定义CUDA_KERNEL_LOOP

在common.hpp中有。

#defineCUDA_KERNEL_LOOP(i,n) \

for(inti = blockIdx.x * blockDim.x + threadIdx.x; \

i < (n); \

i +=blockDim.x * gridDim.x)

先看看caffe采取的线程格和线程块的维数设计，

还是从common.hpp可以看到

CAFFE_CUDA_NUM_THREADS

CAFFE_GET_BLOCKS(constintN)

明显都是一维的。

整理一下CUDA_KERNEL_LOOP格式看看，

for(inti = blockIdx.x * blockDim.x + threadIdx.x;

i< (n);

i+= blockDim.x * gridDim.x)

blockDim.x* gridDim.x表示的是该线程格所有线程的数量。

n表示核函数总共要处理的元素个数。

有时候，n会大于blockDim.x* gridDim.x，因此并不能一个线程处理一个元素。

由此通过上面的方法，让一个线程串行（for循环）处理几个元素。

这其实是常用的伎俩，得借鉴学习一下。

再来看一下这个核函数的实现。

template<typename Dtype>

__global__void mul_kernel(const int n, const Dtype* a,

constDtype* b, Dtype* y)

{

CUDA_KERNEL_LOOP(index,n)

{

y[index]= a[index] * b[index];

}

}

明显就是算两个向量的点积了。

由于向量的维数可能大于该kernel函数线程格的总线程数量。

因此有些线程可以要串行处理几个元素。

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。