39、CUDA编程：从基础到线程调度的全面解析

CUDA线程调度与优化全解

root9

于 2025-11-01 13:39:59 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：并行编程：从多核到集群文章标签： CUDA编程线程同步共享内存

本文链接：https://blog.youkuaiyun.com/root9/article/details/154638668

并行编程：从多核到集群专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

CUDA编程：从基础到线程调度的全面解析

1. CUDA编程简介

CUDA（Compute Unified Device Architecture）是NVIDIA推出的一种并行计算平台和编程模型，可利用GPU的强大计算能力来加速计算密集型任务。下面是一个简单的CUDA程序示例，用于实现两个向量的加法：

#include <stdio.h>
#define N 1600
__global__
void vecadd (int *a, int *b, int *c) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int i;
    for (i=tid; i<N; i += blockDim.x * gridDim.x)
        c[i] = a[i] + b[i];
}
int main( void ) {
    int a[N], b[N], c[N];
    int *ad, *bd, *cd;
    cudaMalloc ((void **) &ad, N * sizeof(int));
    cudaMalloc ((void **) &bd, N * sizeof(int));
    cudaMalloc ((void **) &cd, N * sizeof(int));
    read_in (a); read_in (b);
    cudaMemcpy (ad, a, N * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy (bd, b, N * sizeof(int), cudaMemcpyHostToDevice);
    vecadd<<<10,16>>> (ad, bd, cd);
    cudaMemcpy (c, cd, N * sizeof(int), cudaMemcpyDeviceToHost);
    write_out (c);
    cudaFree (ad);
    cudaFree (bd);
    cudaFree (cd);
}

这个程序的执行步骤如下：
1. 内存分配 ：使用 cudaMalloc 函数在GPU的全局内存中为向量 a 、 b 和 c 分配空间。
2. 数据传输 ：使用 cudaMemcpy 函数将数据从CPU内存复制到GPU内存。
3. 核函数调用 ：调用 vecadd 核函数，使用 <<<10,16>>> 指定执行配置，即10个线程块，每个线程块包含16个线程。
4. 结果传输 ：使用 cudaMemcpy 函数将计算结果从GPU内存复制回CPU内存。
5. 内存释放 ：使用 cudaFree 函数释放GPU内存。

在这个程序中，每个线程负责计算向量 a 和 b 中特定位置的元素之和，并将结果存储在向量 c 的相应位置。如果向量的长度大于线程的数量，每个线程将按照循环数据分布的方式处理多个元素。

2. 同步和共享内存

在CUDA编程中，线程同步和共享内存是两个重要的概念。

2.1 线程同步

CUDA提供了 __syncthreads() 函数来实现线程块内的屏障同步。屏障同步会使线程块内的所有线程在同步点等待，直到所有线程都到达该点后才能继续执行。需要注意的是， __syncthreads() 函数必须被线程块内的所有线程调用，否则程序可能会陷入死锁。

例如，在一个包含 if-then-else 结构的程序中，如果 __syncthreads() 函数只出现在 then 部分，那么只有执行 then 部分的线程会到达同步点并等待，而其他线程无法到达同步点，导致等待的线程无法继续执行。

2.2 共享内存

CUDA的内存组织包括CPU内存和GPU内存，GPU内存又分为不同的层次，如全局内存、常量内存、寄存器和共享内存。

内存类型	访问权限	访问速度	用途
全局内存	CPU和GPU可读写	较慢	存储大量数据
常量内存	CPU可读写，GPU只读	较快	存储常量数据
寄存器	线程私有	最快	存储线程的私有变量
共享内存	线程块内共享	较快	线程块内数据交换

共享内存是分配给整个线程块的，线程块内的所有线程都可以访问共享内存中的数据。通过共享内存，线程之间可以高效地交换数据。在CUDA程序中，可以使用 __shared__ 关键字声明共享变量。

下面是一个使用共享内存计算两个向量标量积的示例：

#include <stdio.h>
const int N = 32 * 1024;
const int threadsPerBlock = 256;
const int n_blocks = N / threadsPerBlock;
__global__
void scal_prod (float *a, float *b, float *c) {
    __shared__
    float part_prod[threadsPerBlock];
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int i,size, thread_index = threadIdx.x;
    float part_res = 0;
    for(i=tid; i<N; i += blockDim.x * gridDim.x)
        part_res += a[i] * b[i];
    part_prod[thread_index] = part_res;
    __syncthreads();
    size = blockDim.x/2;
    while (size != 0) {
        if(thread_index < size)
            part_prod[thread_index] += part_prod[thread_index + size];
        __syncthreads();
        size = size/2;
    }
    if (thread_index == 0)
        c[blockIdx.x] = part_prod[0];
}
int main (void) {
    float *a, *b, c, *part_c;
    float *ad, *bd, *part_cd;
    a = (float *) malloc (N*sizeof(float));
    b = (float *) malloc (N*sizeof(float));
    part_c = (float*) malloc( n_blocks*sizeof(float));
    cudaMalloc ((void **) &ad, N*sizeof(float));
    cudaMalloc ((void **) &bd, N*sizeof(float));
    cudaMalloc ((void **) &part_cd, n_blocks*sizeof(float));
    read_in (a); read_in (b);
    cudaMemcpy (ad, a, N*sizeof(float), cudaMemcpyHostToDevice);
    cudaMemcpy (bd, b, N*sizeof(float), cudaMemcpyHostToDevice);
    scal_prod<<<n_blocks,threadsPerBlock>>>( ad, bd, part_cd);
    cudaMemcpy (part_c, part_cd,
                 n_blocks*sizeof(float), cudaMemcpyDeviceToHost);
    c = 0;
    for (int i=0; i<n_blocks; i++) c += part_cd[i];
    write_out (c);
    cudaFree (ad);
    cudaFree (bd);
    cudaFree (part_cd);
}

这个程序的计算过程可以分为三个阶段：
1. 第一阶段 ：每个线程计算向量 a 和 b 的部分标量积，并将结果存储在共享数组 part_prod 中。
2. 第二阶段 ：在每个线程块内，通过循环将共享数组中的中间结果累加，最终得到每个线程块的标量积。
3. 第三阶段 ：将每个线程块的标量积结果从GPU内存复制到CPU内存，并在CPU上累加得到最终结果。

下面是这个计算过程的流程图：

graph TD;
    A[读取向量a和b] --> B[分配GPU内存];
    B --> C[将数据复制到GPU];
    C --> D[调用核函数scal_prod];
    D --> E[将中间结果复制回CPU];
    E --> F[在CPU上累加中间结果];
    F --> G[输出最终结果];
    G --> H[释放GPU内存];

3. CUDA线程调度

在典型的核函数执行中，生成的线程数量通常会超过计算单元的数量，因此需要一种线程调度机制来将线程分配到计算单元上。CUDA线程调度利用了线程块之间的独立性，允许线程块以任意顺序执行。

CUDA系统将线程块进一步划分为更小的线程集合，称为warp。对于当前的GPU架构，warp的大小为32。线程调度器会管理和确定warp的执行顺序。

线程块划分为warp的方式取决于线程索引 threadIdx 。对于一维线程块，连续的32个线程会组成一个warp；对于二维和三维线程块，会先将其线性化，然后再划分warp。

warp采用SIMT（Single Instruction, Multiple Threads）计算模型，即硬件会为warp内的所有线程执行相同的指令。如果warp内的线程具有不同的控制流路径，会导致执行时间变长，因此在编写程序时应尽量避免这种情况。

例如，在一个数组元素累加的归约操作中，如果每个线程添加相邻的数组元素，那么每个warp中会包含具有不同控制流路径的线程；而如果按照特定的方式组织数组元素的加法，如在标量积计算的第二阶段所示，可以使warp内的线程具有相同的控制流路径，从而提高执行效率。

综上所述，CUDA编程通过利用GPU的并行计算能力，可以显著加速计算密集型任务。了解CUDA的线程同步、共享内存和线程调度机制，对于编写高效的CUDA程序至关重要。

CUDA编程：从基础到线程调度的全面解析

4. 线程调度的影响因素

线程调度是CUDA编程中一个复杂且关键的环节，它受到多种因素的影响。下面详细介绍这些影响因素及其对程序性能的作用。

4.1 线程块和warp的组织方式

线程块和warp的组织方式直接影响到线程的调度和执行效率。不同的组织方式会导致线程在硬件上的分配和执行顺序不同，从而影响程序的性能。

组织方式	特点	影响
一维线程块	线程按一维顺序排列，连续的32个线程组成一个warp	简单直观，适用于一维数据处理，但可能存在线程利用率不高的问题
二维线程块	线程按二维矩阵排列，先按行线性化后再划分warp	适合处理二维数据，如图像，但可能导致warp内线程的控制流路径不一致
三维线程块	线程按三维立方体排列，先线性化后划分warp	适用于三维数据处理，如体数据，但调度复杂度较高

为了提高线程利用率和执行效率，应根据具体的应用场景选择合适的线程块和warp组织方式。例如，处理图像数据时，二维线程块可能更合适；处理一维数组时，一维线程块可能更高效。

4.2 线程数量和计算单元数量的匹配

线程数量和计算单元数量的匹配程度也会影响线程调度的效率。如果线程数量远大于计算单元数量，会导致大量线程等待执行，增加调度开销；如果线程数量小于计算单元数量，会导致计算单元空闲，降低硬件利用率。

因此，在编写CUDA程序时，需要根据计算单元的数量合理调整线程数量。一般来说，可以通过调整线程块的数量和每个线程块中的线程数量来实现。例如，如果计算单元数量为100，每个线程块包含32个线程，可以设置线程块数量为4，这样总共的线程数量为128，接近计算单元数量，能够提高硬件利用率。

4.3 控制流路径的一致性

在SIMT计算模型中，warp内的线程执行相同的指令。如果warp内的线程具有不同的控制流路径，会导致硬件需要依次执行不同的路径，增加执行时间。

为了避免这种情况，应尽量使warp内的线程具有相同的控制流路径。例如，在编写程序时，可以使用条件判断语句，确保warp内的线程在同一时间执行相同的代码分支。下面是一个示例代码：

__global__ void example_kernel(int *data) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    if (tid % 2 == 0) {
        // 偶数线程执行的代码
        data[tid] = data[tid] * 2;
    } else {
        // 奇数线程执行的代码
        data[tid] = data[tid] + 1;
    }
    __syncthreads();
    // 后续代码
}

在这个示例中，由于warp内的线程可能会进入不同的代码分支，导致控制流路径不一致。可以通过调整代码逻辑，使warp内的线程在同一时间执行相同的操作，提高执行效率。

5. 优化CUDA程序的策略

为了提高CUDA程序的性能，可以采用以下优化策略：

5.1 合理使用共享内存

共享内存的访问速度比全局内存快得多，因此在程序中应尽量使用共享内存来存储频繁访问的数据。例如，在计算矩阵乘法时，可以将矩阵的一部分数据加载到共享内存中，减少对全局内存的访问次数。

下面是一个优化后的矩阵乘法示例代码：

__global__ void matrix_multiply(float *A, float *B, float *C, int N) {
    __shared__ float As[BLOCK_SIZE][BLOCK_SIZE];
    __shared__ float Bs[BLOCK_SIZE][BLOCK_SIZE];

    int bx = blockIdx.x;
    int by = blockIdx.y;
    int tx = threadIdx.x;
    int ty = threadIdx.y;

    int Row = by * BLOCK_SIZE + ty;
    int Col = bx * BLOCK_SIZE + tx;

    float Cvalue = 0;

    for (int t = 0; t < (N + BLOCK_SIZE - 1) / BLOCK_SIZE; ++t) {
        if (Row < N && t * BLOCK_SIZE + tx < N)
            As[ty][tx] = A[Row * N + t * BLOCK_SIZE + tx];
        else
            As[ty][tx] = 0.0;

        if (Col < N && t * BLOCK_SIZE + ty < N)
            Bs[ty][tx] = B[(t * BLOCK_SIZE + ty) * N + Col];
        else
            Bs[ty][tx] = 0.0;

        __syncthreads();

        for (int k = 0; k < BLOCK_SIZE; ++k)
            Cvalue += As[ty][k] * Bs[k][tx];

        __syncthreads();
    }

    if (Row < N && Col < N)
        C[Row * N + Col] = Cvalue;
}

在这个示例中，使用共享内存 As 和 Bs 来存储矩阵 A 和 B 的部分数据，减少了对全局内存的访问次数，提高了程序的性能。

5.2 减少线程同步的开销

线程同步是一个比较耗时的操作，因此应尽量减少线程同步的次数。可以通过合理设计算法和数据结构，使线程在不需要同步的情况下完成更多的工作。

例如，在计算数组元素的累加和时，可以采用分治的思想，让每个线程块先计算自己的部分和，然后在CPU上进行最终的累加，减少线程同步的开销。

5.3 优化线程调度

通过合理调整线程块和warp的组织方式，使线程在硬件上的分配更加合理，提高线程的利用率和执行效率。可以根据具体的应用场景和硬件特性，选择合适的线程块和warp大小。

例如，对于计算密集型任务，可以增加线程块的数量和每个线程块中的线程数量，充分利用计算单元的并行计算能力；对于内存密集型任务，可以减少线程块的数量，降低内存访问的竞争。

下面是一个优化线程调度的示例流程图：

graph TD;
    A[分析应用场景和硬件特性] --> B[选择合适的线程块和warp大小];
    B --> C[调整线程块和warp的组织方式];
    C --> D[测试程序性能];
    D --> E{性能是否满足要求};
    E -- 是 --> F[结束优化];
    E -- 否 --> A;