CUDA Architechure Basics(CUDA 架构基础)

最新推荐文章于 2024-09-10 01:51:22 发布

原创

最新推荐文章于 2024-09-10 01:51:22 发布 · 1.4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了CUDA架构的基础知识，包括GPU的主要组成部分——全局内存和流多处理器（SMs）。全局内存类似CPU的RAM，GPU和CPU都能访问，最高可达24GB。SMs是执行并行运算的核心，包含寄存器、高速缓存、调度器和执行核。CUDA编程时，线程被组织成线程块和网格进行并行执行，kernel在GPU的多个SM上按需扩展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. GPU 的相关的概念，以及相关的GPU硬件架构

GPU 主要有两个主要的components, 一个是全局内存（global memory），一个是streaming multiprocessors(SMs，翻译为流多处理器)

1.1 global memory

（1）可以类比这个内存为CPU的RAM

（2） CPU 和GPU 均可以访问到

（3）目前最大达到24GB, 为去年（2014）11月NVIDIA 推出的K80（双GPU）, K80 指标如下(为了显示K80 的牛逼之处，特与上个版本K40列出进行对比)：

（4）内存的带宽最大达到了480GB/sec

1.2 SMs（流多处理器）

SMs 是GPU的基本组成部分。是真正执行并行运算的部分。 SMs 运行着我们的 CUDA kernels。每一个SM 包含着属于这个SM自身的几千个寄存器（register），自己的控制单元，自己的高速缓存（Cache）， warp schedulers, 以及用于整数和浮点数运算操作的execution cores（执行核）。

（1） registers(寄存器)

每一个SM都有几千个寄存器。这些寄存器在线程被执行的时候，分配给不同的线程（threads）。之所以具有这么多的寄存器是为了提高硬件的吞吐量（throughput），因为使用寄存器可以减少数据的或者指令传输的延迟。

（2）高速缓存（cache）有以下几种。

O 共享内存（shared memory），用于当数据在需要不同线程之间进行交换。、

O constant cache, 用于快速的broadcast 从constant memory 读取到的内容。

O texture cache, 用于将texture memory 的bandwidth aggregate 起来。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。