CUDA常见函数（一）（小白入门）

最新推荐文章于 2025-05-14 22:53:34 发布

o__O_pyx

最新推荐文章于 2025-05-14 22:53:34 发布

阅读量1w

点赞数 9

CC 4.0 BY-SA版权

分类专栏： CUDA 文章标签： cuda 编程语言

本文链接：https://blog.youkuaiyun.com/o__O_pyx/article/details/104077955

CUDA常见函数（小白入门）

示例代码0：VS自带Kernel.cu
示例代码1：传递参数
- cudaMalloc
- - malloc
- cudaFree
- cudaMemcpy
- - Memcpy
示例代码2：查询设备
- cudaGetDeviceCount
其他

示例代码0：VS自带Kernel.cu

初始定义

程序首先定义了一个函数addWithCuda，它是调用GPU运算的入口函数，返回类型是cudaError_t。

cudaError_t是一个枚举类型，可以作为几乎所有CUDA函数的返回类型，用来检测函数执行期间发生的不同类型的错误，一共有80多个错误类型，可以在driver_types.h头文件中查看每一个整型对应的错误类型，如果返回0，代表执行成功。

核函数

函数addKernel在最前有一个修饰符“global”，这个修饰符告诉编译器，被修饰的函数应该编译为在GPU而不是在CPU上运行，所以这个函数将被交给编译设备代码的编译器——NVCC编译器来处理，其他普通的函数或语句将交给主机编译器处理。

这里“设备”的概念可以理解为GPU和其显存组成的运算单元，“主机”可以理解为CPU和系统内存组成的运算单元。在GPU上执行的函数称为核函数。

注：关于threadIdx.x的说明。

CUDA中的线程（thread）是设备中并行运算结构中的最小单位，类似于主机中的线程的概念，thread可以以一维、二维、三维的形式组织在一起，threadIdx.x表示的是thread在x方向的索引号，还可能存在thread在y和z方向的索引号threadIdx.y和threadIdx.z。
一维、二维或三维的thread组成一个线程块（Block），一维、二维或三维的线程块（Block）组合成一个线程块网格（Grid），线程块网格（Grid）可以是一维或二维的。通过网格块（Grid）->线程块（Block）->线程（thread）的顺序可以定位到每一个并且唯一的线程。

addKernel函数会被GPU上的多个线程同时执行一次，线程间彼此没有通信，相互独立。到底会有多少个线程来分别执行核函数，是在“<<< >>>”符号里定义的。“<<< >>>”表示运行时配置符号，在本程序中的定义是<<<1，size>>>，表示分配了一个线程块（Block），每个线程块有分配了size个线程，“<<<>>>”中的参数并不是传递给设备代码的参数，而是定义主机代码运行时如何启动设备代码。以上定义的这些线程都是一个维度上的，可以通过thredaIdx.x来获取执行当前计算任务的线程的ID号。

其他函数

cudaSetDevice函数用来设置要在哪个GPU上执行，如果只有一个GPU，设置为cudaSetDevice（0）；

cudaGetLastError函数用于返回最新的一个运行时调用错误，对于任何CUDA错误，都可以通过函数cudaGetErrorString函数来获取错误的详细信息。

cudaDeviceSynchronize函数提供了一个阻塞，用于等待所有的线程都执行完各自的计算任务，然后继续往下执行。

cudaFree函数用于释放申请的显存空间。

cudaDeviceReset函数用于释放所有申请的显存空间和重置设备状态；

示例代码1：传递参数

#include <iostream>
#include "book.h"


__global__ void add( int a, int b, int *c ) {
   
		*c = a + b;
}

int main( void ) {
   
	int c;
	int *dev_c;
	HANDLE_ERROR( cudaMalloc( (void**)&dev_c, sizeof(int) ) ); /* 第一个参数是指针，只想用于保存新分配内存地址的变量，第二个参数是分配内存大小 */
	/* 返回值不是指针，且返回类型为void*。 */
	add<<<1,1>>>( 2, 7, dev_c )

最低0.47元/天解锁文章