cuda学习心得--2.真正入手利用GPU计算加法

最新推荐文章于 2023-08-07 16:17:26 发布

转载最新推荐文章于 2023-08-07 16:17:26 发布 · 277 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/lopezycj/archive/2011/06/18/cuda_add.html

文章标签：

#python #c/c++

本文介绍CUDA编程基础，包括如何使用__global__关键字指定GPU执行函数、cudaMalloc与cudaFree进行内存管理及cudaMemcpy进行数据传输。并通过一个简单的加法示例说明了如何在GPU上执行并行计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cuda学习心得--1.一切从hello world开始这篇文章并没有利用GPU来计算。现在才开始讲述怎么利用GPU来计算。先看代码：

1 #include " cuda_runtime.h "
2 #include " device_launch_parameters.h "
3 #include < iostream >
4 using namespace std;
5 // 这里是__global__是让代码在GPU里执行，
6 __global__ void add( int * c, const int a, const int b)
7 {
8 * c = a + b;
9 }
10
11 int main()
12 {
13 int * dev_c ; // 声明指针，用于GPU分配地址
14 int c ; // 把GPU计算好的结果存放到内存里，
15 cudaError_t cudaStatus; // 定义状态
16 // 通过cudaMalloc分配地址，不能对这个内存地址dev_c进行直接引用操作
17 cudaStatus = cudaMalloc(( void ** ) & dev_c, sizeof ( int ));
18 // 如果不成功，就退出
19 if ( cudaStatus != cudaSuccess )
20 {
21 cout << " error at cudaMalloc " << endl;
22 return - 1 ;
23 }
24 // 调用add函数，在GPU执行
25 add <<< 1 , 1 >>> (dev_c, 1 , 2 );
26
27 // 把GPU执行的结果放到c里去，必须要通过cudaMemcpy来从GPU复制到内存，而不能直接用dev_c。
28 cudaStatus = cudaMemcpy( & c, dev_c, sizeof ( int ), cudaMemcpyDeviceToHost );
29 // 如果不成功，就退出
30 if ( cudaStatus != cudaSuccess )
31 {
32 cout << " error at cudaMemcpy " << endl;
33 return - 1 ;
34 }
35 // 验证计算结果
36 cout << " 1 + 2 = " << c << endl;
37 // 释放分配的空间
38 cudaFree(dev_c);
39
40 return 0 ;
41 }

在这里，能看到CUDA C和C/C++的不同地方：

1.我们看到add()这个函数前面加了一个__global__这个关键字，这个关键字将告诉编译器，函数应该编译在设备上运行，而不是在主机上运行。

2.使用了cudaMalloc来分配空间，所分配得到指针传递给在设备上执行的函数，用来cudaFree施放分配的空间。如果想把值在设备和主机上传递则用了cudaMemcpy这个函数，第四个参数表示这个值是从哪里到哪里，共有这几个值，如下：

1 /* *
2 * CUDA memory copy types
3 */
4 /* DEVICE_BUILTIN */
5 enum cudaMemcpyKind
6 {
7 cudaMemcpyHostToHost = 0 , /* *< Host -> Host */
8 cudaMemcpyHostToDevice = 1 , /* *< Host -> Device */
9 cudaMemcpyDeviceToHost = 2 , /* *< Device -> Host */
10 cudaMemcpyDeviceToDevice = 3 , /* *< Device -> Device */
11 cudaMemcpyDefault = 4 /* *< Default based unified virtual address space */
12 };

通常只用了cudaMemcpyHostToDevice 和cudaMemcpyDeviceToHost这两值，即从主机到设备和从设备到主机。特别重要一点，不能在主机代码里使用cudaMalloc分配的指针进行内存读写操作，只能用cudaMemcpy来进行处理。

3.add()函数的调用，竟然变成了add<<<1,1>>>(dev_c, 1, 2);。使用了<<<1,1>>>这么奇怪的方式，第一个1代表着1个线程块，后面的1是代表一个线程在执行。线程块最大值是65535，线程最大值是512，同时执行最多就只有65535*512。这就是并行的魅力所在，不像CPU执行，只能一个个运行。当然现在有多核的CPU，但普通的CPU也就那个几个核，根本无法比。这就是GPU编程的魅力所在，能对大量的数据并行执行。

当然我们这个例子根本看不到效率，等数量级变大，才能看出并行的魅力。

转载于:https://www.cnblogs.com/lopezycj/archive/2011/06/18/cuda_add.html