自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 CUDA共享内存

* 对于每一个P的元素,我们只需要循环遍历width / tile_width 次就okay了,这里有点绕,画图理解一下*/__syncthreads();// 上述两句所有thread都会执行,等待所有thread执行完成。/* 对于每一个P的元素,我们只需要循环遍历width次M和N中的元素就可以了*/我们设定每一个thread负责P中的一个坐标的matmul。// 将大矩阵分解为BLOCKSIZE×BLOCKSIZE的小块进行处理。// 确定负责计算的结果元素的索引。

2025-07-15 13:36:56 310

原创 CUDA线程全局索引:确定当前线程处理的数据位置

确定当前线程处理的数据位置一维索引计算​:直接计算线程的全局一维索引:const int n = blockDim.x * blockIdx.x + threadIdx.x;全局线程ID = 当前块在网格中的偏移量 + 线程在块内的偏移量// 块全局ID(三维网格→一维)blockIdx.x;

2025-07-15 11:19:52 1025

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除