GPU
文章平均质量分 63
普若赛瑟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
《General-Purpise Graphics Processor Architectureton 》通用GPU架构
1,虽然推荐看英文原版,本人阅读英文原版也没有任何压力,但是看英文原版的话,总是有一种感觉,就是看的时候觉得懂了,但是非常容易忘。所以想翻成中文,加强自己的理解,也方便以后再温故。另外,还有一本中文书非常推荐,就是《通用图形处理器设计-GPGPU编程模型与架构原理》。2,虽然我估计搞这行的人阅读英文应该都没啥问题,但还是想对一些朋友有所帮助。这本书是非常好的一本书,非常推荐想理解GPU硬件的朋友学习。原创 2023-05-24 16:14:57 · 896 阅读 · 0 评论 -
第三章 SIMT 内核:指令和寄存器数据流
在本章的其余部分,我们通过考虑依赖于每个循环的体系结构的关键方面,帮助您全面了解图中的各个模块。为了实现图形中需要的高性能可编程性,以随着图形模式数量的增加降低验证成本,并使游戏开发人员能够更轻松地区分他们的产品 [Lindholm et al., 2001],有必要采用 可以维持大片外带宽的架构。我们将这些越来越准确的描述称为“近似”,以承认即使在我们最详细的描述中也省略了一些细节。我们发现通过考虑三个越来越准确的“近似循环”来组织本章很方便,这些“近似循环”逐步考虑了这些调度循环的细节。原创 2023-05-18 20:04:14 · 338 阅读 · 0 评论 -
3.1 单环近似
实际上,内存的响应延迟取决于应用程序的位置属性和片外内存访问遇到的争用量。然而,简而言之,局部性属性可以支持或阻止循环调度:当不同的线程在它们执行的相似点共享数据时,例如当访问图形像素着色器中的纹理贴图时,线程取得相同的进展是有益的 这会增加片上缓存中“命中”的内存引用数量,这是循环调度 [Lindholm et al., 2015] 所鼓励的。另一方面,当线程主要访问不相交的数据时,这往往会发生在更复杂的数据结构中,重复调度给定线程以最大化局部性可能是有益的 [Rogers et al., 2012]原创 2023-05-17 16:06:57 · 447 阅读 · 0 评论 -
3.2 双环近似
当一条指令从指令缓存中取出并放入指令缓冲区时,相应 warp 的记分板条目将与该指令的源寄存器和目标寄存器进行比较。当已执行的指令准备好写入寄存器文件时,它会清除记分板中分配给它的条目,还会清除存储在指令缓冲区中的同一 warp 中任何指令的相应依赖位。该设计不是在每个 warp 的每个寄存器中保存一个位,而是在每个 warp 中包含少量条目(在最近的一项研究 [Lashgar 等人,2016 年] 中估计约为 3 或 4 个),其中每个条目是 将由已发出但尚未完成执行的指令写入的寄存器。原创 2023-05-17 17:06:47 · 131 阅读 · 0 评论 -
3.3 三环近似
在第 5 个周期,来自 warp 1 的指令 i2 的第二个源操作数 1 被阻止从寄存器文件中读取,因为 bank 1已经被 warp 0 之前发出的指令 i2 的更高优先级的写回访问。然而,与图 3.13 中使用寄存器布局的情况不同,这里不同的 warp 访问不同的 bank,这有助于减少一个 warp 的写回和读取其他 warp 中的源操作数之间的冲突。例如,在图 3.16 中,warp 0 的寄存器 r0 分配给 bank 0,而 warp 1 的寄存器 r0 分配给 bank 1。原创 2023-05-17 18:14:00 · 175 阅读 · 0 评论 -
第四章 存储系统
此外,现代 GPU 通常会实现一个由程序员管理的暂存器内存,并在协作线程组中一起执行的线程之间共享访问。通过一次将所有这些数据加载到共享内存中,它们可以重叠长时间延迟的片外内存访问,并避免在对这些数据执行计算时对内存进行长延迟访问。更重要的是,在给定时间内(DRAM 带宽)在 GPU 和片外内存之间传输的字节数相对于在相同时间内可执行的指令数而言是很小的。我们将对内存系统的讨论分为两部分,以反映内存分为驻留在 GPU 内核内的部分和连接到片外 DRAM 芯片的内存分区内的部分。原创 2023-05-22 11:38:05 · 124 阅读 · 0 评论 -
4.1 一级存储结构
本节介绍 GPU 上的一级缓存结构,重点介绍统一的 L1 数据缓存和暂存器“共享内存”,以及它们如何与计算核心交互。我们还简要讨论了 L1 纹理缓存的典型微架构。我们包括对纹理缓存的讨论,虽然它在 GPU 计算应用程序中的使用有限,但是它提供了一些关于 GPU 与 CPU 有何不同的见解和直觉。最近的一项专利描述了如何统一纹理缓存和 L1 数据(例如,在 NVIDIA 的 Maxwell 和 Pascal GPU 中发现)[Heinrich et al., 2017]。原创 2023-05-22 15:57:38 · 687 阅读 · 0 评论
分享