CUDA专题9—CUDA共享内存 vs 分布式共享内存：架构解析与性能优化实战

AI专题精讲

于 2025-04-01 09:29:47 发布

阅读量207

点赞数 7

分类专栏： CUDA C++编程系列专题文章标签： gpu算力

本文链接：https://blog.youkuaiyun.com/qq_39698985/article/details/146798317

版权

25 篇文章 ¥49.90 ¥99.00

订阅专栏

1. 共享内存

共享内存通过__shared__内存空间说明符进行分配。

共享内存预计比全局内存快得多，这一点在线程层次结构中已提及并在共享内存章节有详细说明。它可用作暂存内存（或软件管理的缓存），以减少CUDA块对全局内存的访问，如下述矩阵乘法示例所示。

以下代码示例是一个未利用共享内存的简单矩阵乘法实现。每个线程读取A的一行和B的一列，并计算C的相应元素，如图8所示。因此，A会从全局内存中被读取B.width次，而B会被读取A.height次。

// 矩阵按行优先存储方式存储：
// M(row, col) = *(M.elements + row * M.width + col)
typedef struct {
   
    int width;  # 矩阵的宽度（列数）

了解本专栏