给cuda核函数传递二维数组的一种方法

最新推荐文章于 2025-06-03 11:13:27 发布

刘恅师教你学编程

最新推荐文章于 2025-06-03 11:13:27 发布

阅读量9.9k

点赞数 5

CC 4.0 BY-SA版权

文章标签： cuda 二维数组

本文链接：https://blog.youkuaiyun.com/lingerlanlan/article/details/24399909

#include <stdio.h>

/**
 * 需求：需要把若干个一维数组传给核函数
 * 实现方法：在gpu生成一个一维的指针数组，每个元素指向一个普通一维数组。
 * 把该指针数组的地址传递给核函数。
 * 其实该指针数组充当二维数组的角色。
 */

__global__ void
testKernel(float ** pointerArray)
{
	printf("(%d,%d):%f\n",threadIdx.y,threadIdx.x,pointerArray[threadIdx.y][threadIdx.x]);
}


int main()
{

	int rows = 2;
	int cols = 2;


	float** host_2d = new float*[rows];
	float** dev_2d;
	for (int k = 0; k < rows; k++)
	{
		float* host_1d = new float[cols];
		//---------下面两个是测试数据，看看核函数printf输出的是否与这个一致------------------------------
		host_1d[0] = 0;
		host_1d[1] = 1;

		float* dev_1d ;
		cudaMalloc((void**)&dev_1d,sizeof(float)*cols);//该指针指向的是一个float数组
		cudaMemcpy(dev_1d,host_1d,sizeof(float)*cols,cudaMemcpyHostToDevice);

		host_2d[k] = dev_1d;
	}
	cudaMalloc((void**)&dev_2d,sizeof(float*)*rows);
	cudaMemcpy(dev_2d,host_2d,sizeof(float*)*rows,cudaMemcpyHostToDevice);

	dim3 threads(rows,cols);
	testKernel<<<1,threads>>>(dev_2d);

	cudaDeviceSynchronize();

	//记得释放内存啊，养成好习惯。这里省去这部分代码




return 0;
}

输出结果：

(0,0):0.000000
(0,1):1.000000
(1,0):0.000000
(1,1):1.000000

与猜想一致

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刘恅师教你学编程

关注关注

5
点赞
踩
21

收藏

觉得还不错? 一键收藏
7
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cuda之二维数组的高效内存管理（cudaMallocPitch/cudaMemcpy2D）

03-27

2669

因为cuda具有高效利用GPU进行科学计算的优势，而人工智能的重点之一就是复杂的计算任务，因此学好GPU计算是学习AI的重点任务。这里，我们即将进行利用共享内存的矩阵运算。我们看一个例子，如何对矩阵进行分配显卡内存以及元素赋值操作。通常来讲，在GPU中分配内存使用的是cudaMal...

CUDA C++ 对核函数同时传递多张图像

weixin_43865692的博客

08-09

1107

可将图像放进一个数组中，通过传递一个指针，核函数可访问多张图像；在核函数处理结束后，将处理后的图像重新传回CPU中。

7 条评论您还未登录，请先登录后发表或查看评论

在CUDA如何使用二维数组（**[M][N]）

爱.NET

06-16

2621

总有些童鞋想知道怎么在CUDA中使用二维数组（[M][N]这种类型），其实这个很简单，不过你要完全弄明白，必须对指针，地址等概念非常清楚才行。写这篇博客解决下大家这个问题： 1、首先讲述一下在一般C语言中如何使用二维数组。 int r, c; int **arr = (int**)malloc(ROWS*sizeof(int*)); int *data = (int*)malloc(COLS*...

cudaMemcpy2D() 函数

热门推荐

小P的博客

01-23

1万+

主要是在图像处理时用到的一些函数，在这里汇总一下。

CUDA C编程学习笔记

tmyttt2333的博客

01-06

1052

尽管可以使用多核和众核来区分CPU和GPU的架构，但这两种核心是完全不同的。 CPU核心比较重，用来处理非常复杂的控制逻辑，以优化串行程序执行。 GPU核心较轻，用于优化具有简单控制逻辑的数据并行任务，注重并行程序的吞吐量。。GPU不是一个独立运行的平台而是CPU的协处理器。因此，GPU必须通过PCIe总线与基于CPU的主机相连来进行操作， CUDA编程模型假设系统是由一个主机和一个设备组成的，而且各自拥有独立的内存。核函数是在设备上运行的。为使你拥有充分的控制权并使系统达到最佳性能，CUDA 运行

CUDA编程07 - 卷积的优化

GPU全栈博主

08-19

1022

在接下来的几篇文章中，我们将讨论一组重要的并行计算模式。这些模式是许多并行算法的基础，这些算法出现在许多并行应用中。我们将从卷积开始，卷积是一种流行的数组操作，广泛应用于信号处理、数字录音、图像处理、视频处理和计算机视觉等领域。在这些应用领域中，卷积通常作为一种滤波器，转化信号和像素为更理想的值。我们的图像模糊核就是这样一种滤波器，它平滑信号值，以便人们能够看到整体趋势。另一个例子是高斯滤波器，这是一种卷积滤波器，可以用来锐化图像中物体的边界和边缘。卷积通常执行大量的算术运算，以生成每个输出元素。

两种不同的核函数引发的访问共享内存以及全局内存的区别

weixin_42470012的博客

12-04

846

最近发现了一条真理，那就是科研项目中遇到问题，千万别企图绕过去，因为，最终还是会发现，那个悬而未决的问题会最终把你带回原地。废话不多说，先盗用大佬的一张图，在CUDA架构下, 显示芯片执行时的最小单位是thread. 数个thread可以组成一个block. 一个block中的thread能存取同一块共享的内存(shared memory), 而且可以快速进行同步的动作, 特别要注意, 这是块(b...

二维数组 cudaMallocPitch() 和三维数组 cudaMalloc3D() 的使用

晴树的专栏

01-04

2298

▶ 使用函数 cudaMallocPitch() 和配套的函数 cudaMemcpy2D() 来使用二维数组。C 中二维数组内存分配是转化为一维数组，连贯紧凑，每次访问数组中的元素都必须从数组首元素开始遍历；而 cuda 中这样分配的二维数组内存保证了数组每一行首元素的地址值都按照 256 或 512 的倍数对齐，提高访问效率，但使得每行末尾元素与下一行首元素地址可能不连贯，使用指针寻址时要注意考...

cuda数据传输之cudaMemcpy()和cudaMemcpy2D()详解

qq_45241855的博客

05-11

8809

核函数中：a = (double*)((char*)dev_a + i*pitch)，这样对a的遍历方式是获取数组每一行的数据，同时计算a的结果直接作用在dev_a 上，而不需要再将a赋值给dev_a！总结：无论一维还是二维数组，都变为一维数组，进行传递，二维数组要注意数组的宽度大小。2. cudaMemcpy2D()传递一维数组、二维数组，已经核函数索引遍历的方法。再核函数中对一维数组索引，直接是0下标索引。

cuda中,两个维度的数组如何使用也是看了别人的文章,完后自己也实现一下

闲暇余客

08-25

389

cudaimprocess.h #define M 16 #define N 16 __global__ void build_TransMat(float* d_transMat,size_t pitch); void D2DimTest(); cudaimprocess.cu __global__ void build_TransMat(float * d_transMat, size...

Cuda手撕二维数组

bocai1215的博客

08-18

675

背景：项目开发过程中，有小伙伴（姑且称为小甲）写cuda程序一直运行出错，且百思不得其解，反复查看逻辑，感觉没有问题，一起review代码发现，其cuda逻辑中使用了二维指针，且使用错误，cuda二维指针的使用，初学者如果不使用cuda本身二维数组的申请，直接使用cudaMalloc，及其容易出错，因此写该篇文章，以供参考。...

CUDA之二维数组分配内存及初始化

SUSU0203的博客

10-17

9876

在GPU中，对一维数组分配内存使用的是cudaMalloc函数，但是对于二维数组，使用cudaMalloc来分配内存并不能得到最好的性能。因为对于2D内存，对齐是一个很重要的性质，cudaMallocPitch函数能够保证分配的内存是合理对齐的，满足物理上的内存访问，因此可以保证对行访问时具有最优的效率。对数组进行初始化应当使用cudaMemset2D，进行内存赋值应当使用cudaM...

二维vector传递到CUDA中实现并行计算

勉強

01-20

1524

std::vector<std::vector>传递到CUDA中实现并行计算一、vector内存分配我们知道std::vector内存分配时连续的，但是对于二维数组或多维数组来说，内部vector不占用外部vector的空间，所以二维数组或多维数组内部每一行的内存都是连续的，外部vector存储内部vector的相关信息，也是连续的。详细内容可参考这篇博客：https://blog...

CUDA与二维动态数组

xhz1234的专栏

04-22

6554

二维数组和二维指针在CUDA中的应用

weixin_33963189的博客

11-28

263

CUDA是一个线程网络，我特别想弄清楚的一件事情是，主机如果是个二维的数组，传到设备中，是否还是可以用二维数组来表示呢？很多例子都是将二维的数组映射到一个一维指针变量中去。但是我就是还想在设备中也用arr[][]的形式来找到我想要的那个元素，可以吗？肯定是可以的。方案一：栈定义arr[2][10]，直接用地址传进去。但是栈的空间很小，在CPU中能声明的数组就不大。所以，这里不讨论这个方案。...

用cuda编程，快速将一张图像拆分为8张图像，拆分的方法为：假设输出的第i张图像第j行是dst[i][j]，输入图像第i行表示为src[i]，则dst[i][j]=src[8 * j + i]

03-18