cuda并行编程基础（二）

最新推荐文章于 2024-09-04 16:28:58 发布

原创

最新推荐文章于 2024-09-04 16:28:58 发布 · 2.5k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#cuda 并行编程 c++ c

本文深入探讨CUDA并行编程的基础，包括如何确定一维、二维数组的block和grid尺寸，以及内存管理。通过示例代码解释了不同block和grid分配方法对计算的影响，并展示了GPU内存的使用，如CUDA内存管理函数cudaMalloc、cudaMemcpy等。同时，提供了一个简单的内存管理程序，演示了数据在GPU之间的传输和计算过程。

二、一些基础
    上接： cuda并行编程基础（一）
    （二）cuda基础：gridBlock.cu
        4.总计算量与block、grid的关系
            假设一维数组总计算量为total_c，怎么确定block与grid呢?
            一维数组：
                int cal_array[XX];
                int thd_num=16;
                dim3 block(thd_num);//一般block.x * block.y * block.z <=1024，1024这个值根据显卡性能确定
                dim3 grid((XX + thd_num -1)/thd_num);//这里为何这么计算呢？
            之所以grid.x = XX + thd_num - 1 /thd_num，原因是要保证block*grid >=XX
            二维数组：
                int cal_array[XX][YY];
                int thd_x_num=16,thd_y_num=32;