CUDA Architechure Basics(CUDA 架构基础)

本文介绍了CUDA架构的基础知识,包括GPU的主要组成部分——全局内存和流多处理器(SMs)。全局内存类似CPU的RAM,GPU和CPU都能访问,最高可达24GB。SMs是执行并行运算的核心,包含寄存器、高速缓存、调度器和执行核。CUDA编程时,线程被组织成线程块和网格进行并行执行,kernel在GPU的多个SM上按需扩展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. GPU 的相关的概念, 以及相关的GPU硬件架构

  GPU 主要有两个主要的components, 一个是全局内存(global memory), 一个是streaming multiprocessors(SMs, 翻译为流 多处理器)

          

    1.1 global memory

            (1) 可以类比这个内存为CPU的RAM

             (2) CPU 和GPU 均可以访问到

             (3) 目前最大达到24GB, 为去年(2014)11月NVIDIA 推出的K80(双GPU), K80 指标如下(为了显示K80 的牛逼之处, 特与上个版本K40列出进行对比):

                                

              (4) 内存的带宽最大达到了480GB/sec

    1.2 SMs(流多处理器)

         SMs 是GPU的基本组成部分。是真正执行并行运算的部分。 SMs 运行着 我们的 CUDA kernels。 每一个SM 包含着属于这个SM自身的几千个寄存器(register), 自己的控制单元, 自己的高速缓存(Cache), warp schedulers, 以及用于整数和浮点数运算操作的execution cores(执行核)。

           (1) registers(寄存器)

                     每一个SM都有几千个寄存器。 这些寄存器在线程被执行的时候, 分配给不同的线程(threads)。 之所以具有这么多的寄存器是为了提高硬件的吞吐量(throughput), 因为使用寄存器可以减少数据的或者指令传输的延迟。

             (2)高速缓存(cache)有以下几种。

                        O 共享内存(shared memory), 用于当数据在需要不同线程之间进行交换。、

                        O  constant cache, 用于快速的broadcast  从constant memory 读取到的内容。

                         O texture cache,  用于将texture memory 的bandwidth aggregate 起来。

                         O L1 cache , 用于减少数据到local 或者global memeory 的延迟(latency)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值