CUDA 矩阵编写小试牛刀

最新推荐文章于 2023-10-13 12:23:20 发布

原创最新推荐文章于 2023-10-13 12:23:20 发布 · 501 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#CUDA 矩阵小code

CUDA 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一个使用CUDA进行简单矩阵加法运算的例子。通过显式地在GPU上分配内存，并利用CUDA内核函数实现两个一维数组的逐元素相加。该示例展示了如何在GPU上执行基本的并行计算任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简单矩阵CUDA运算

在cuda里面运算，都需要再GPU里面分配空间，OpenCV中可以用GpuMat

__global__ void Add(int *A,int *B,int *C){
	int i=threadIdx.x;
        //x可以理解成index，
	//二维数组的话，y*width+x 可以理解成线性存储的index
 	C[i]=A[i]+B[i];
}
int main(){
	int N=10;
	int A[10]={1,2,3,4,5,6,7,8,9,10};
	int B[10]={3,3,3,3,3,3,3,3,3,3};
	int *cuA,*cuB,*cuC;int C[N];
	cudaMalloc((void**)&cuC,sizeof(int)*N);//分配空间
	cudaMalloc((void**)&cuA,sizeof(int)*N);
	cudaMalloc((void**)&cuB,sizeof(int)*N);
	cudaMemcpy(cuA,A,sizeof(int)*N,cudaMemcpyHostToDevice);
	cudaMemcpy(cuB,B,sizeof(int)*N,cudaMemcpyHostToDevice);
	Add<<<1,N>>>(cuA,cuB,cuC);
	cudaMemcpy(&C,cuC,sizeof(int)*N,cudaMemcpyDeviceToHost);
	cudaFree(cuA);//释放空间
	cudaFree(cuB);
	cudaFree(cuC);
	//2D
	//A[][],B[][],C[][]
	//const dim3 blockDim(8,8);//2的幂
	//const dim3 gridDim((width+blockDim.x-1)/blockDim.x,(height+blockDim.y-1)/blockDim.y);
	//Add<<<gridDim,blockDim>>>(A,B,C);
	
}

一个简易的矩阵运算就算是完成了，够简单的.....