cuda学习心得--2.真正入手利用GPU计算加法

本文介绍CUDA编程基础,包括如何使用__global__关键字指定GPU执行函数、cudaMalloc与cudaFree进行内存管理及cudaMemcpy进行数据传输。并通过一个简单的加法示例说明了如何在GPU上执行并行计算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

cuda学习心得--1.一切从hello world开始 这篇文章并没有利用GPU来计算。现在才开始讲述怎么利用GPU来计算。先看代码:


  
1 #include " cuda_runtime.h "
2 #include " device_launch_parameters.h "
3 #include < iostream >
4 using namespace std;
5 // 这里是__global__是让代码在GPU里执行,
6 __global__ void add( int * c, const int a, const int b)
7 {
8 * c = a + b;
9 }
10
11 int main()
12 {
13 int * dev_c ; // 声明指针,用于GPU分配地址
14 int c ; // 把GPU计算好的结果存放到内存里,
15 cudaError_t cudaStatus; // 定义状态
16 // 通过cudaMalloc分配地址,不能对这个内存地址dev_c进行直接引用操作
17 cudaStatus = cudaMalloc(( void ** ) & dev_c, sizeof ( int ));
18 // 如果不成功,就退出
19 if ( cudaStatus != cudaSuccess )
20 {
21 cout << " error at cudaMalloc " << endl;
22 return - 1 ;
23 }
24 // 调用add函数,在GPU执行
25 add <<< 1 , 1 >>> (dev_c, 1 , 2 );
26
27 // 把GPU执行的结果放到c里去,必须要通过cudaMemcpy来从GPU复制到内存,而不能直接用dev_c。
28 cudaStatus = cudaMemcpy( & c, dev_c, sizeof ( int ), cudaMemcpyDeviceToHost );
29 // 如果不成功,就退出
30 if ( cudaStatus != cudaSuccess )
31 {
32 cout << " error at cudaMemcpy " << endl;
33 return - 1 ;
34 }
35 // 验证计算结果
36 cout << " 1 + 2 = " << c << endl;
37 // 释放分配的空间
38 cudaFree(dev_c);
39
40 return 0 ;
41 }

在这里,能看到CUDA C和C/C++的不同地方:

1.我们看到add()这个函数前面加了一个__global__这个关键字,这个关键字将告诉编译器,函数应该编译在设备上运行,而不是在主机上运行。

2.使用了cudaMalloc来分配空间,所分配得到指针传递给在设备上执行的函数,用来cudaFree施放分配的空间。如果想把值在设备和主机上传递则用了cudaMemcpy这个函数,第四个参数表示这个值是从哪里到哪里,共有这几个值,如下:


  
1 /* *
2 * CUDA memory copy types
3 */
4 /* DEVICE_BUILTIN */
5 enum cudaMemcpyKind
6 {
7 cudaMemcpyHostToHost = 0 , /* *< Host -> Host */
8 cudaMemcpyHostToDevice = 1 , /* *< Host -> Device */
9 cudaMemcpyDeviceToHost = 2 , /* *< Device -> Host */
10 cudaMemcpyDeviceToDevice = 3 , /* *< Device -> Device */
11 cudaMemcpyDefault = 4 /* *< Default based unified virtual address space */
12 };

通常只用了cudaMemcpyHostToDevice 和cudaMemcpyDeviceToHost这两值,即从主机到设备和从设备到主机。特别重要一点,不能在主机代码里使用cudaMalloc分配的指针进行内存读写操作,只能用cudaMemcpy来进行处理。

3.add()函数的调用,竟然变成了add<<<1,1>>>(dev_c, 1, 2);。使用了<<<1,1>>>这么奇怪的方式,第一个1代表着1个线程块,后面的1是代表一个线程在执行。线程块最大值是65535,线程最大值是512,同时执行最多就只有65535*512。这就是并行的魅力所在,不像CPU执行,只能一个个运行。当然现在有多核的CPU,但普通的CPU也就那个几个核,根本无法比。这就是GPU编程的魅力所在,能对大量的数据并行执行。

当然我们这个例子根本看不到效率,等数量级变大,才能看出并行的魅力。

转载于:https://www.cnblogs.com/lopezycj/archive/2011/06/18/cuda_add.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值