《CUDA并行程序设计-GPU编程指南》读书笔记--(1)线程网格、线程块以及线程

最新推荐文章于 2025-05-28 09:34:38 发布

SigalHu

最新推荐文章于 2025-05-28 09:34:38 发布

阅读量5.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：读书笔记 cuda编程文章标签： cuda 读书笔记

本文链接：https://blog.youkuaiyun.com/u011475134/article/details/71577770

本文介绍了CUDA编程中线程网格、线程块和线程的概念，包括SPMD模型、线程ID的使用、内存访问限制以及CUDA内核的调用方式。详细讲解了线程束的执行机制和内存合并优化，建议线程块大小为线程束大小的整数倍以提高效率。同时，讨论了线程块的布局选择，如长方形布局优于正方形布局的原因，以及如何利用共享内存和线程束实现高效执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线程网格、线程块以及线程

SPMD模型

__global__ void addKernel(int *c, const int *a, const int *b)
{
    int i = threadIdx.x;
    c[i] = a[i] + b[i];
}

__global__前缀是告诉编译器在编译这个函数的时候生成的是GPU代码而不是CPU代码，并且这段GPU代码在CPU上是全局可见的。

我们可以将线程ID用作数组的下标对数组进行访问。线程0中threadIdx.x值为0，线程1的为1，依此类推，线程127中的threadIdx.x值为127。

CPU和GPU有各自独立的内存空间，因此在GPU代码中，不可以直接访问CPU端的参数，反过来在CPU代码中，也不可以直接访问GPU端的参数。

为了传递一个数据集到GPU端进行计算，我们需要使用cudaMalloc与cudaFree来申请和释放显存，然后再使用cudaMemcpy将数据集从CPU端复制到GPU端，这样，才可以开始计算。

执行

线程都是以每32个一组，当所有32个线程都在等待诸如内存读取这样的操作时，它们就会被挂起。术语上，这些线程组叫做线程束(32个线程)或半个线程束(16个线程)。

将这128个线程分成4组，每组32个线程。首先让所有的线程提取线程标号，计算得到数组地址，然后发出一条内存获取的指令。接着下一条指令是做乘法，但这必须是在从内存读取数据之后。由于读取内存的时间很长，因此线程会挂起。当这组中的32个线程全部挂起，硬件就会切换到另一个线程束。
这里写图片描述
当线程束0由于内存读取操作而挂起时，线程束1就成为了正在执行的线程束。GPU一直以此种方式运行直到所有的线程束到成为挂起状态。