cuda中线程块共享存储（shared memory）加速较全局存储（global memory）之优势

最新推荐文章于 2025-06-13 18:00:00 发布

原创

最新推荐文章于 2025-06-13 18:00:00 发布 · 5.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#存储 #cuda #c #任务

本文探讨了CUDA中线程块共享存储（shared memory）相对于全局存储（global memory）在并行计算上的加速优势。通过举例矩阵乘法运算，解释了全局存储情况下线程独立执行，效率受限于数据读取次数；而共享存储允许线程块内的线程协作，减少数据读取次数，从而提高计算效率。共享存储在读取数据阶段速度可提升至全局存储的m倍。

（仅供参考，各方面表述可能有错，概不负责）

首先个人观点说明两个概念，（1）共享存储加速，就是一个线程块内不仅所有线程并发执行，而且各线程还通过共享的内存来实现协作，进一步提升加速效果；（2）全局存储加速，仅仅是前者的前一个加速功能，即所有线程并发执行，线程之间不存在相互协作关系。

考虑两个等大小正方矩阵A（m x m）与B（m x m）相乘，结果存储在C（m x m）中。

1.全局存储

假如m的大小刚好不超过你的计算机的GPU的线程块维度大小的最大值（本人的GPU是512），那么就可以用一个线程块中的m x m个线程并发执行，每个线程（row，col）计算矩阵C中的一个数据C（row，col）。

基于以上假设，因为每个线程是各自独立并发运行计算的，所以整个矩阵的计算效率等价于一个线程的计算效率，也就是只需考虑分析一个线程完成它自己计算任务的速度。一个线程的计算过程如下（图示）:

C(row,col)=A（row

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。