50、CUDA编程入门与内存同步机制详解

fire9

于 2025-08-15 12:28:59 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：并行编程：多核与集群系统的高效开发指南文章标签： CUDA编程 GPU并行计算内存同步机制

本文链接：https://blog.youkuaiyun.com/fire9/article/details/150803184

并行编程：多核与集群系统的高效开发指南专栏收录该内容

61 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

CUDA编程入门与内存同步机制详解

1. CUDA编程基础

CUDA编程模型结合了一组物理上紧密相连的SIMD处理器，其通用处理集群（GPCs）的目标是实现多SIMD处理器间线程的高效协作。硬件提供了专用网络，用于集群内线程间的快速数据交换。Hopper架构支持分布式共享内存（DSM），将不同SIMD处理器的共享内存组合成单一虚拟地址空间，实现了SIMD处理器间的直接数据交换，无需通过全局内存。

不同架构的NVIDIA GPU具有不同的特性，如下表所示：
| Nvidia GPU | P100 (Pascal) | V100 (Volta) | A100 (Ampere) | H100 (Hopper) |
| — | — | — | — | — |
| 晶体管数量 | 15.3·10⁹ | 21.1·10⁹ | 54.2·10⁹ | 80·10⁹ |
| GPU芯片尺寸 | 610 mm² | 828 mm² | 815 mm² | 814 mm² |
| SIMD处理器数量 | 56 | 80 | 108 | 132 |
| 每个SIMD处理器的核心数 | 64 | 64 | 64 | 128 |
| SIMD核心总数 | 3584 | 5120 | 6912 | 16896 |
| L2缓存 | 4096 KB | 6144 KB | 40960 KB | 50 MB |
| 性能 (TF) | 10.6 | 15.7 | 19.5 | 60 |
| 内存大小 | 16 GB | 16/32 GB | 40 GB | 80 GB |
| 每个SM的共享内存大小 | 64 KB | 最高