
cuda编程
功夫小象
这个作者很懒,什么都没留下…
展开
-
cupy kernel cuda核函数直接计算与调用pytorch或mxnet框架等库函数结果不一致[已解决]
最近在使用cuda核函数实现PSROI Pooling 和 Deformable PSROI Pooling时发现,结果与自带库函数不以致,检查kernel是否存在float型参数。如果有,在python中改为cp.float32(param)后传入。原创 2020-12-22 21:19:27 · 686 阅读 · 0 评论 -
cuda实现任意尺寸的矩阵乘法
使用cuda实现任意大小(可大于1024)的矩阵乘法行、列数小于1024的cuda矩阵乘法任意尺寸的矩阵乘法行、列数小于1024的cuda矩阵乘法Nvidia GPU常见的块内线程数最大为1024,当矩阵的行数和列数均小于1024时,我们可以简单的采用行和列点到点依次相乘构建核函数,即块内的每个线程负责一对元素的乘积计算,然后将所有块内线程相乘的结果累加求和,得到结果矩阵对应行和列的元素值。>>Code:参照CUDA11指导手册,给出核函数代码如下:// Matrix multipli原创 2020-07-16 23:05:32 · 2631 阅读 · 5 评论