CUDA线程调度器、指令发布及指令操作次数

翻译于 2014-12-01 14:18:22 发布 · 1.2k 阅读

·

2

·

CUDA 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了不同计算能力的GPU设备的架构特点。针对计算能力为1.x和2.1的设备，分别阐述了它们的SM（流式多处理器）结构、SP数量、指令发布机制及执行效率等内容。

计算能力为1.x的设备

每个SM具有8个SP（cuda核），每个SP每次单精度浮点运算或整形运算需要1个时钟周期，因此每个时钟周期SM可以执行8个单精度浮点运算或整数运算。每个时钟周期可以执行1个双精度浮点运算。

每个SM具有1个线程束调度器，一次可以把一条指令发送给8个SP，由于每个SP执行一次单精度浮点运算或整形运算需要1个时钟周期。因此要让一个线程束中的所有线程都执行一条单精度浮点运算或整数运算指令的话，每个SP需要将该指令执行4次。这样，线程束调度器就需要等4个时钟周期才能发布下一条指令。

计算能力为2.1的设备

每个SM具有48个SP，每个SP每次单精度浮点运算或整形运算需要1个时钟周期，因此每个时钟周期SM可以执行48个单精度浮点运算或整数运算。每个时钟周期可以执行4个双精度浮点运算。

每个SM具有2个线程束调度器。在每个指令发布时间，每个线程束调度器发布两条独立的指令（如果存在线程束准备好执行下一条指令的话）。第一个调度器负责向偶数ID的线程束发布指令。第2个调度器负责向奇数ID的线程束发布指令。注意，当一个调度器发布一条双精度浮点指令时，另一个调度器无法发布任何指令。

由于一个线程束调度器只能向一半的CUDA核发布指令，为了让一个线程束的全部线程的都执行一条单精度浮点运算或整形运算指令，一个调度器必须2个时钟周期发布一条指令。

关于上面一段话的理解：一个线程束如果准备好执行下一条整形或单精度浮点运算指令，这个线程束需要32个SP进行运算。由哪一个线程调度器向这个线程束发布指令取决于这个线程束的线程素ID是奇数还是偶数。而一个线程调度器一次只能向SM中的一半的SP发布指令，因此，同一条指令需要发布2次，待第一次发布的指令执行一次后再发布下一次，执行一次整形或单精度浮点型运算需1个时钟周期，因此每2个时钟周期发布一条新指令。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。