
GPU
文章平均质量分 92
TrustZone_
一个搞技术的读书人,妄图分享最干货的技术知识与世界运转的底层逻辑。公ZH:TrustZone
展开
-
上帝视角看GPU(5):图形流水线里的不可编程单元
这几年API的改进集中于提供subpass和invalidate等操作,可以让开发者决定是否把纹理的tile载入片上内存,以及渲染后是否存到纹理,以减少这部分的开销和功耗。而对于那些所谓“通用GPU,只有计算流水线没有图形流水线的诈骗货,其实也可以用这样的软件方式构造图形流水线,在驱动里无缝衔接,成为真正的GPU。第二,如果像素B比像素A还远,也得等到运行了pixel shader,进入output merger,才能发现有遮挡,才抛弃掉像素B。下一期,我们将关注于另一条越来越重要的流水线,光线跟踪。原创 2024-03-04 22:52:01 · 1511 阅读 · 0 评论 -
CUDA 中的线程组织
所以,用上述简单的执行配置时最多可以指派大约两万亿个线程。这通常是远大于一般的编程问题中常用的线程数目的。一般来说,只要线程数比 GPU 中的计算核心数(几百至几千个)多几倍时,就有可能充分地利用 GPU 中的全部计算资源。总之,一个核函数允许指派的线程数目是巨大的,能够满足几乎所有应用程序的要求。需要指出的是,一个核函数中虽然可以指派如此巨大数目的线程数,但在执行时能够同时活跃(不活跃的线程处于等待状态)的线程数是由硬件(主要是 CUDA 核心数)和软件(即核函数中的代码)决定的。原创 2024-03-03 22:15:18 · 1265 阅读 · 0 评论 -
GPU 硬件与 CUDA 程序开发工具
从十多年前起,GPU 的浮点数运算峰值就比同时期的 CPU 高一个量级;GPU 的内存带宽峰值也比同时期的 CPU 高一个量级。CPU 和 GPU 的显著区别是:一个典型的 CPU 拥有少数几个快速的计算核心,而一个典型的 GPU 拥有几百到几千个不那么快速的计算核心。CPU 中有更多的晶体管用于数据缓存和流程控制,但 GPU 中有更多的晶体管用于算术逻辑单元。所以,GPU 是靠众多的计算核心来获得相对较高的计算性能的。图 1.1 形象地说明了(非集成) GPU 和 CPU 在硬件架构上的显著区别。原创 2024-03-03 22:14:14 · 1224 阅读 · 0 评论 -
【GPU】GPU 硬件与 CUDA 程序开发工具
GPU 是英文 graphics processing unit 的首字母缩写,意为图形处理器。GPU 也常被称为显卡(graphics card)。与它对应的一个概念是 CPU,即 central processing unit(中央处理器)的首字母缩写。GPU 的浮点数运算峰值就比同时期的 CPU 高一个量级;GPU 的内存带宽峰值也比同时期的 CPU 高一个量级。原创 2024-01-28 19:34:29 · 1912 阅读 · 0 评论 -
【GPU】CUDA是什么?以及学习路线图!
作者:Keepin1、cuda是英伟达开发的一套应用软件接口(API)。其主要应用于英伟达GPU显卡的调用。2、云计算可以简单的理解为是通过网络组合成的计算机集群,用于各种加速,其中以CPU为主,GPU为辅。所以CUDA可以成为云计算的一个支柱。cuda的官方文档:https://docs.nvidia.com/cuda/原创 2024-01-27 11:54:31 · 2592 阅读 · 0 评论 -
【GPU】GPU CUDA 编程的基本原理是什么?
【GPU】GPU CUDA 编程的基本原理是什么?作者:董鑫想学好 CUDA 编程, 第一步就是要理解 GPU 的硬件结构, 说到底,想要从零理解起来, 还有有些难度. 这里希望能够用最简单的方式把一些最基本的内容讲清楚. 所以, 本文以易懂性为主, 牺牲了一些完全准确性.原创 2024-01-27 02:21:03 · 873 阅读 · 0 评论 -
【GPU】深入理解GPU硬件架构及运行机制
GPU的基本底层构成,主要是以GPU计算核心 Cores,以及Memory以及控制单元,三大组成要素组成。Core是计算的基本单元,既可以用作简单的浮点运算,又可以做一些复杂的运算例如,tensor 或者ray tracing。多个core之间通讯的方式:在特定的应用场合多个core之间是不需要的通讯的,也就是各干各的(例如 图像缩放)。但是也有一些例子,多个core之间要相互通讯配合(例如上文谈到的数组求和问题),每个core之间都可以实现交互数据是非常昂贵的,原创 2024-01-25 23:52:22 · 14500 阅读 · 0 评论