小白猿0-优快云博客

原创 CUDA共享内存

* 对于每一个P的元素，我们只需要循环遍历width / tile_width 次就okay了，这里有点绕，画图理解一下*/__syncthreads();// 上述两句所有thread都会执行，等待所有thread执行完成。/* 对于每一个P的元素，我们只需要循环遍历width次M和N中的元素就可以了*/我们设定每一个thread负责P中的一个坐标的matmul。// 将大矩阵分解为BLOCKSIZE×BLOCKSIZE的小块进行处理。// 确定负责计算的结果元素的索引。

2025-07-15 13:36:56 310

原创 CUDA线程全局索引：确定当前线程处理的数据位置

确定当前线程处理的数据位置一维索引计算：直接计算线程的全局一维索引：const int n = blockDim.x * blockIdx.x + threadIdx.x;全局线程ID = 当前块在网格中的偏移量 + 线程在块内的偏移量// 块全局ID（三维网格→一维）blockIdx.x;

2025-07-15 11:19:52 1025

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人