2、图形处理单元的可编程和可扩展架构

图形处理单元的可编程和可扩展架构

1. 相关工作

早期的可编程 GPU 由用于顶点处理和片段处理的专用硬件、纹理映射单元和光栅化器等独立组件构成,采用多流配置以利用 3D 图形算法中的并行性。但随着现代应用对图形处理定制化要求的提高,这种异构架构不再是理想选择。

2007 年统一着色器模型出现后,顶点着色器和片段着色器的差异逐渐消失。新设备配备多个统一着色器,能执行相同算术运算并访问相同缓冲区,虽指令集仍有差异,但提高了图形管线的可编程性,关键部分的固定硬件确保了高性能。不过,计算资源间的流连接仍限制了处理算法的定制。主流 GPU 厂商如 NVIDIA 和 ATI 在其最新产品中采用了这种方法。

有研究通过实现通用 GPU 微架构并进行模拟,评估了统一着色器的性能。结果表明,与非统一着色器架构相比,图形性能提升有限,但在单位面积效率方面有显著优势。该研究使用 OpenGL ARB 类汇编低级语言实现着色器,而我们选择 GLSL 作为着色器程序输入语言,因为它已成为 OpenGL 标准的一部分,且当前 GPU 上的并行非图形计算趋势倾向于使用高级语言。

Intel 的 Larrabee 处理器提出了另一种实现 GPU 灵活性的方法。它并非基于传统 GPU 架构,而是推出了与 x86 兼容的设备,并添加浮点单元以增强算术性能。Larrabee 几乎没有特定硬件,仅纹理映射单元是个例外,其图形管线通过软件实现,便于修改和定制。它将以“多核”形式部署,核心数量达 64 个及以上,每个核心包含一个 512 位向量 FPU,可同时进行 16 次单精度浮点运算。

2. TTAGPU 架构

TTAGPU 设计旨在实现与 OpenGL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值