CUDA编程04 - GPU计算架构和线程调度

黑不溜秋的

已于 2024-08-30 16:23:12 修改

阅读量1.9k

点赞数 52

分类专栏： GPU加速专栏文章标签：架构 CUDA GPU

于 2024-08-01 22:19:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zangle260/article/details/140858505

版权

GPU加速专栏专栏收录该内容

29 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

目录

二：现代GPU架构

三：块调度

四：线程同步

五：Warp 和 SIMD 硬件

六：控制分叉（Control Divergence）（或称路径分叉）：

七：Warp调度和延迟容忍度

八：资源划分和占用率（occupancy）

九：查询设备属性

一：概述

在前面的CUDA编程01- 并行编程介绍中，我们了解到CPU的设计目的是最小化指令执行的延迟，而GPU的设计目的是最大化执行指令的吞吐量。在前面CUDA编程02 - 数据并行介绍和CUDA编程03 - 多维数据并行中，我们学习了使用CUDA编程接口创建和调用核函数来启动和执行线程的核心特性。在接下来的三篇文章中，我们将讨论现代GPU的架构，包括计算架构和内存架构，并探讨基于架构理解之上的性能优化技术。本章将介绍GPU计算架构的几个方面，这些方面对于CUDA C程序员理解其核函数的性能和行为至关重要。我们将首先展示一个简化的、高层次的计算架构视图，并探讨灵活的资

了解本专栏

超级会员免费看

黑不溜秋的

博客等级

码龄15年

572
原创

2591
点赞

1235
收藏

2768
粉丝

关注

私信

热门文章

分类专栏

最新评论

OSG(OpenSceneGraphic) 渲染引擎架构--整体认识
黑不溜秋的: 没有，具体可参考相关资料；我理解OSG总体分为三层：底层渲染层，封装OpenGL状态和绘制；场景图层，提供可扩展的节点管理结构；应用层，简化3D开发，提供资源管理以及特性支持。
OSG(OpenSceneGraphic) 渲染引擎架构--整体认识
微小的鱼: 没有分层图吗
C++ STL reduce 用法
黑不溜秋的: 由于Foo重载了"+"号运算符, 所以在std::reduce过程中会调用"+"运算符累加；又由于data中有两个元素，std::reduce累加过程如下：首先会有一个初始值 result, 它的值是"Foo" , 其次它与data[0]累加，result结果值为"FooFoo"，最后与data[1]累加，result结果为"FooFooFoo"
C++ STL reduce 用法
鸿氏: 最下面的例子，是怎么计算出三个Foo的呀，可以说一下过程吗
C++ 语言特性29 - 协程介绍
黑不溜秋的: 的确存在潜在的崩溃问题，原因与协程的生命周期管理有关，如果主线程在协程挂起时退出，主线程的退出会清理所有线程的资源，包括可能涉及的协程相关的堆栈或全局状态。当协程被恢复并完成时，handle.destroy() 被调用，但此时可能指向已被清理的资源，从而导致程序崩溃。已修复

大家在看

【机器学习入门】第2讲：数学基础（上）——线性代数与统计学核心精讲

最新文章

2025

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

黑不溜秋的 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。