- 博客(2)
- 收藏
- 关注
原创 CUDA共享内存
* 对于每一个P的元素,我们只需要循环遍历width / tile_width 次就okay了,这里有点绕,画图理解一下*/__syncthreads();// 上述两句所有thread都会执行,等待所有thread执行完成。/* 对于每一个P的元素,我们只需要循环遍历width次M和N中的元素就可以了*/我们设定每一个thread负责P中的一个坐标的matmul。// 将大矩阵分解为BLOCKSIZE×BLOCKSIZE的小块进行处理。// 确定负责计算的结果元素的索引。
2025-07-15 13:36:56
310
原创 CUDA线程全局索引:确定当前线程处理的数据位置
确定当前线程处理的数据位置一维索引计算:直接计算线程的全局一维索引:const int n = blockDim.x * blockIdx.x + threadIdx.x;全局线程ID = 当前块在网格中的偏移量 + 线程在块内的偏移量// 块全局ID(三维网格→一维)blockIdx.x;
2025-07-15 11:19:52
1025
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅