29、第六代GPU：光线追踪与网格着色器技术解析

最新推荐文章于 2025-09-14 03:20:32 发布

咖啡JSON

最新推荐文章于 2025-09-14 03:20:32 发布

阅读量363

点赞数

CC 4.0 BY-SA版权

分类专栏： GPU进化史：从游戏到AI 文章标签：第六代GPU 光线追踪网格着色器

本文链接：https://blog.youkuaiyun.com/i1j2k/article/details/151666156

GPU进化史：从游戏到AI 专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

第六代GPU：光线追踪与网格着色器技术解析

1. Intel - Xe GPU (2018)

Intel在GPU领域发力，组建了涵盖公司内外的工程师和营销团队。不过，他们面临着两大挑战。其一，要学会与外部晶圆厂合作，其文化和流程与Intel内部差异巨大；其二，需解决向后兼容性问题，这曾是Larrabee失败的原因之一。Intel进入的并非独立显卡（dGPU）市场，而是显卡加速卡（AIB）市场，在供应链、问答、营销、技术支持、法律以及标准合规等方面存在诸多难题。

Intel推出了Arc系列移动独立显卡，以下是其产品线的详细信息：
| 产品系列 | 入门级3 | 中端5 | 高端7 |
| — | — | — | — |
| GPU型号 | A350M | A370M | A550M、A730M、A770M |
| 制程工艺 (nm) | TSMC N6 | TSMC N6 | TSMC N6 |
| 晶体管数量 (十亿) | 7.2 | 7.2 | 21.7 (部分)、21.7、21.7 |
| 芯片尺寸 (mm²) | 157 | 157 | 406 |
| 矢量引擎 | 96 | 128 | 256、384、512 |
| GPU核心 (FP32 ALUs) | 768 | 1024 | 2048、3072、4096 |
| GPU时钟频率 (GHz) | 1.15 | 1.55 | 0.9、1.1、1.65 |
| RT核心 | 6 | 8 | 16、24、32 |
| VRAM速度 (Gbps) | 14 | 14 | 14、14、16 |
| VRAM (GB) | GDDR6 4 | GDDR6 4 | GDDR6 8、12、16 |
| 总线宽度 | 64 | 64 | 128、192、256 |
| ROPS | 24 | 32 | 64、96、128 |
| TMUs | 48 | 64 | 128、192、256 |
| TFLOPS | 1.8 | 3.2 | 3.7、6.8、13.5 |
| 带宽 (GB/s) | 112 | 112 | 224、336、512 |
| TBP (瓦) | 25 - 35 | 35 - 50 | 60 - 80、80 - 120、120 - 150 |
| 发布日期 | 2022年第一季度 | 2022年第一季度 | 初夏 |
| 发布价格 | $199 | $399 | $599 |

从表格数据可以看出，随着产品线从入门级向高端迈进，各项性能指标如晶体管数量、GPU核心数量、TFLOPS等都有显著提升，这意味着高端产品在处理能力和图形性能方面更加强大。

2. AMD Navi 21 RDNA 2 (2020年10月)

2020年末，AMD推出了基于Navi 21 GPU架构的Radeon系列显卡。此前市场上已有诸多传闻，AMD也提前透露了相关信息，最终产品的推出得到了行业的认可。

在高端市场，AMD此前并非有力竞争者，Nvidia占据主导地位。但Navi 21的出现改变了这一格局，Radeon RX 6800 XT成为强大的竞争对手，AMD还能开展强大的营销活动来支持产品。

Navi 21的核心是AMD的RDNA 2架构，相比之前的RDNA架构有显著进步：
- 增强的计算单元 ：提高了计算能力。
- 新的视觉管线与光线加速器 ：光线加速器可大幅加速光线相交计算，RX 6800 XT拥有72个光线加速器单元，每个单元每个时钟周期可计算多达四条光线与边界框的相交或一条光线与三角形的相交。
- 性能提升 ：在各种测试游戏中，每瓦性能最高提升1.54倍；在相同每个计算单元（CU）功率下，频率比RX 5700 XT高1.3倍。
- 功能支持 ：提供DXR、VRS和AMD的FidelityFX功能。

此外，AMD还引入了Infinity Cache，可加速性能。该缓存能降低每比特数据的能耗，128 MB的Infinity Cache可提供高达256位GDDR6有效带宽的3.25倍，在考虑功率时，每瓦有效带宽比单独的256位GDDR6高2.4倍。

以下是AMD Radeon系列AIB的详细参数：
| 型号 | Radeon RX 6800 XT | Radeon RX 6800 | RX 5700 XT |
| — | — | — | — |
| 架构 | RDNA 2 | RDNA 2 | RDNA |
| 制造工艺 | 7 nm | 7 nm | 7 nm |
| 晶体管数量 | 26.8亿 | 26.8亿 | 10.3亿 |
| 芯片尺寸 | 519 mm² | 519 mm² | 251 mm² |
| 计算单元 | 72 | 60 | 40 |
| 光线加速器 | 72 | 60 | - |
| 流处理器 | 4608 | 3840 | 2560 |
| 游戏GPO时钟频率 | 最高2015 MHz | 最高1815 MHz | 最高1755 MHz |
| 提升GPO时钟频率（最高） | 最高2250 MHz | 最高2105 MHz | 最高1905 MHz |
| 峰值单精度性能 | 最高20.74 TFLOPS | 最高16.17 TFLOPS | 最高9.75 TFLOPS |
| 峰值半精度性能 | 最高41.47 TFLOPS | 最高32.33 TFLOPS | 最高19.5 TFLOPS |
| 峰值纹理填充率 | 最高648.0 GT/s | 最高505.2 GT/s | 最高304.8 GT/s |
| ROPS | 128 | 96 | 64 |
| 峰值像素填充率 | 最高288.0 GPIs | 最高202.1 GPIs | 最高121.9 GPIs |
| AMD Infinity缓存 | 128 MB | 128 MB | - |
| 内存（最高） | 16 GB GDDR6 | 16 GB GDDR6 | 8 GB GDDR6 |
| 内存带宽 | 512 GB/s | 512 GB/s | 448 GB/s |
| 内存接口 | 256位 | 256位 | 256位 |
| 板卡功率 | 300 W | 250 W | 225 W |

从表格对比可以看出，Radeon RX 6800 XT在各项性能指标上都优于RX 5700 XT，体现了RDNA 2架构的优势。

在光线追踪方面，2020年AMD与索尼宣布其定制APU应用于新的索尼PS5，具备光线追踪相交着色器，可在游戏机和PC上实现实时光线追踪（RTRT）。2021年2月，基于RDNA2的Radeon RX 6000 XT AIB也具备了RTRT能力。AMD采用了混合的软硬件结合方法进行光线追踪，在纹理着色器中引入了固定功能状态机和相交检测引擎，解决了单纯硬件或软件方案的问题。

其工作流程如下：

graph LR
    A[Shader发送纹理指令] --> B[纹理地址单元（TAU）接收指令]
    B --> C[纹理缓存处理器（TCP）根据TAU提供的地址从缓存中获取BVH节点数据]
    C --> D[光线相交引擎使用光线和BVH数据进行光线 - BVH节点类型相交测试]
    D --> E[相交测试指示和结果通过纹理数据返回路径返回给Shader]
    E --> F[Shader审查相交结果和指示，决定如何遍历到下一个BVH节点]

这种混合方法具有诸多优势，如通过Shader控制整体计算可保持灵活性，必要时可绕过固定功能硬件；利用纹理处理器基础设施消除了光线存储和BVH缓存所需的大缓冲区，节省了芯片面积并降低了硬件复杂度。

3. FidelityFX Super Resolution (2021年3月)

2021年3月，AMD宣布了FidelityFX Super Resolution（FSR）技术，这是一项开源的跨平台技术，旨在提高帧率并提供高质量、高分辨率的游戏体验。

FSR的工作原理如下：
- 空间上采样 ：利用算法分析源图像特征，进行边缘重建，将图像重建为更高的目标分辨率。
- 锐化处理 ：通过锐化滤波器增强纹理细节，但会引入边缘噪声和其他伪像。
- 后处理 ：补偿色差效应、胶片颗粒等，清理图像。

FSR有四种质量设置：Ultra Quality、Quality、Balanced和Performance，用户可根据需求调整图像质量和性能的平衡。以下是不同质量设置下的缩放因子和输入分辨率：
| FSR质量模式 | 缩放因子 | 1440p FSR输出的输入分辨率 | 4K FSR输出的输入分辨率 |
| — | — | — | — |
| 超高质量 | 每个维度1.3倍 | 1970 × 1108 | 2954 × 1662 |
| 高质量 | 每个维度1.5倍 | 1706 × 960 | 2560 × 1440 |
| 平衡 | 每个维度1.7倍 | 1506 × 847 | 2259 × 1270 |
| 高性能 | 每个维度2.0倍 | 1280 × 720 | 1920 × 1080 |

FSR的优势在于它能减轻光栅扫描渲染速度受图像中多边形数量的影响，且受屏幕分辨率影响较小。与Nvidia通过AI滤波降低图像分辨率再缩放的方法不同，FSR无需AI滤波及其伴随的开销。它与多种GPU兼容，包括旧款AMD GPU和Nvidia AIB，只需DirectX 11作为最低官方支持API，移植到DirectX 9也相对简单。

FSR由两个连续的计算着色器组成：一个进行边缘重建的上采样，另一个对结果图像进行锐化以提取像素细节。处理和抗锯齿后的数据可来自任何传统游戏，包括2D游戏、光线追踪游戏或应用，光线追踪并非必需，这使得AMD能为任何GPU和多个版本的DirectX提供FSR软件。

第六代GPU：光线追踪与网格着色器技术解析（续）

4. Innosilicon (2021)

4.1 GPU领域的新参与者

2021年，加密货币ASIC制造商Innosilicon将其技术应用于GPU的研发，采用了Imagination Technologies的BXT 32 - 1024 MC4 RTL IP。该公司成立于2006年，位于中国珠海，在上海和武汉设有研发中心，2022年全球员工超过700人。其业务从最初的RFID和定制LTD芯片，扩展到卫星通信、AI内存芯片控制器，再到定制ARM CPU和加密货币挖矿市场。

尽管Innosilicon在内存带宽管理方面有一定优势，开发了可实现64 GB/s的GDDR6超高速PHY，并使用四级脉冲幅度调制（PAM4）信号，但测试显示其自主GPU设计在主流市场竞争力不足。不过，该公司决定结合Imagination的GPU、自身的内存管理器和张量核心，打造高端GPU/AIB，命名为Fantasy One。

4.2 Fantasy One GPU及AIB产品

产品规格 ：Fantasy One有九个GPU块，每个块最多可有32个核心。虽然公司未披露制程技术，但已生产出芯片并打造了AIB产品。
| 产品类型 | 类型A AIB | 类型B AIB |
| — | — | — |
| 设计特点 | 多芯片（小芯片）单Fantasy One GPU设计，用于消费/工作站 | 双Fantasy One GPU设计，通过Innolink接口连接 |
| 性能指标 | 填充率达160 GPixel/s，单精度计算能力达5 TFLOPS | 计算能力达10 TFLOPS，填充率达320 GPixel/s |
| 输出接口 | HDMI 2.1、DisplayPort 1.4、VGA | 未提及特殊差异 |
| 内存 | 高达16 GB GDDR6(X)内存，128位接口，内存带宽理论可达304 GB/s | 高达32 GB GDDR6(X)内存，通过双128位接口 |
| 功耗 | 未提及特殊功耗情况 | 典型功耗仅20瓦 |
| 支持标准 | OpenGL、OpenGL ES、OpenCL、Vulkan、DirectX（版本未披露） | 相同 |

从表格可以看出，类型B AIB在性能上更强大，但功耗控制出色，这得益于其双GPU设计和Innosilink接口的优化。

Innolink接口 ：Innosilicon的Innolink IP芯片let解决方案允许大量低延迟数据在小芯片之间无缝传输，就像它们在同一总线上一样。该接口传输速率为56 Gbps/对，插入损耗为30 dB，可扩展到4/8/16/32/64/128通道，与PHY无关，且具有低功耗模式。

其工作流程如下：

graph LR
    A[小芯片数据传输需求] --> B[Innolink接口接收数据]
    B --> C[接口进行低延迟处理]
    C --> D[数据在小芯片间无缝传输]

4.3 市场定位与前景

Innosilicon不太可能基于Imagination的IP开发特定的矿机产品，而是将重点放在数据中心、桌面和笔记本市场。其FP32性能在5 - 6 TFLOPS之间，填充率为160 gigapixel/s，介于AMD的RX 6600和Nvidia的GTX 1660 SUPER之间；AI计算（INT8）性能为25 TOPS，拥有高达16 GB GDDR6(X)内存，内存带宽为304 GB/s。

未来，Innosilicon计划在2022年推出下一代Fantasy 2和3 GPU系列，并采用5 nm制程技术，有望进一步提升产品性能。

5. 总结与展望

5.1 市场格局变化

从上述介绍的几款GPU产品可以看出，GPU市场格局正在发生变化。Intel凭借Arc系列进入移动独立显卡市场，虽然面临与外部晶圆厂合作和向后兼容性等挑战，但展现了其在GPU领域的决心。AMD的RDNA 2架构凭借显著的性能提升和创新功能，如光线加速器和Infinity Cache，在高端市场对Nvidia构成了有力竞争。Innosilicon作为新参与者，虽然目前产品竞争力有待提高，但凭借其独特的技术和市场定位，也为市场带来了新的活力。

5.2 技术发展趋势

光线追踪技术普及 ：实时光线追踪（RTRT）已成为GPU的重要功能，从Xbox Series X、PS5到AMD和Nvidia的相关产品，越来越多的平台和游戏支持RTRT。这一技术让游戏更加逼真，减少了视觉干扰，提升了玩家的沉浸感。
性能与效率提升 ：各大厂商都在努力提高GPU的性能和效率，如AMD的RDNA 2架构在每瓦性能和频率上的提升，以及Infinity Cache对性能的加速。同时，FSR等技术的出现，在提高帧率的同时保证了图像质量，且无需依赖AI滤波等高成本技术。
跨平台兼容性增强 ：AMD的FSR技术是开源的跨平台技术，可与多种GPU兼容，降低了开发者的门槛，使得更多玩家能够享受到技术带来的好处。