29、第六代GPU:光线追踪与网格着色器技术解析

第六代GPU:光线追踪与网格着色器技术解析

1. Intel - Xe GPU (2018)

Intel在GPU领域发力,组建了涵盖公司内外的工程师和营销团队。不过,他们面临着两大挑战。其一,要学会与外部晶圆厂合作,其文化和流程与Intel内部差异巨大;其二,需解决向后兼容性问题,这曾是Larrabee失败的原因之一。Intel进入的并非独立显卡(dGPU)市场,而是显卡加速卡(AIB)市场,在供应链、问答、营销、技术支持、法律以及标准合规等方面存在诸多难题。

Intel推出了Arc系列移动独立显卡,以下是其产品线的详细信息:
| 产品系列 | 入门级3 | 中端5 | 高端7 |
| — | — | — | — |
| GPU型号 | A350M | A370M | A550M、A730M、A770M |
| 制程工艺 (nm) | TSMC N6 | TSMC N6 | TSMC N6 |
| 晶体管数量 (十亿) | 7.2 | 7.2 | 21.7 (部分)、21.7、21.7 |
| 芯片尺寸 (mm²) | 157 | 157 | 406 |
| 矢量引擎 | 96 | 128 | 256、384、512 |
| GPU核心 (FP32 ALUs) | 768 | 1024 | 2048、3072、4096 |
| GPU时钟频率 (GHz) | 1.15 | 1.55 | 0.9、1.1、1.65 |
| RT核心 | 6 | 8 | 16、24、32 |
| VRAM速度 (Gbps) | 14 | 14 | 14、14、16 |
| VRAM (GB) | GDDR6 4 | GDDR6 4 | GDDR6 8、12、16 |
| 总线宽度 | 64 | 64 | 128、192、256 |
| ROPS | 24 | 32 | 64、96、128 |
| TMUs | 48 | 64 | 128、192、256 |
| TFLOPS | 1.8 | 3.2 | 3.7、6.8、13.5 |
| 带宽 (GB/s) | 112 | 112 | 224、336、512 |
| TBP (瓦) | 25 - 35 | 35 - 50 | 60 - 80、80 - 120、120 - 150 |
| 发布日期 | 2022年第一季度 | 2022年第一季度 | 初夏 |
| 发布价格 | $199 | $399 | $599 |

从表格数据可以看出,随着产品线从入门级向高端迈进,各项性能指标如晶体管数量、GPU核心数量、TFLOPS等都有显著提升,这意味着高端产品在处理能力和图形性能方面更加强大。

2. AMD Navi 21 RDNA 2 (2020年10月)

2020年末,AMD推出了基于Navi 21 GPU架构的Radeon系列显卡。此前市场上已有诸多传闻,AMD也提前透露了相关信息,最终产品的推出得到了行业的认可。

在高端市场,AMD此前并非有力竞争者,Nvidia占据主导地位。但Navi 21的出现改变了这一格局,Radeon RX 6800 XT成为强大的竞争对手,AMD还能开展强大的营销活动来支持产品。

Navi 21的核心是AMD的RDNA 2架构,相比之前的RDNA架构有显著进步:
- 增强的计算单元 :提高了计算能力。
- 新的视觉管线与光线加速器 :光线加速器可大幅加速光线相交计算,RX 6800 XT拥有72个光线加速器单元,每个单元每个时钟周期可计算多达四条光线与边界框的相交或一条光线与三角形的相交。
- 性能提升 :在各种测试游戏中,每瓦性能最高提升1.54倍;在相同每个计算单元(CU)功率下,频率比RX 5700 XT高1.3倍。
- 功能支持 :提供DXR、VRS和AMD的FidelityFX功能。

此外,AMD还引入了Infinity Cache,可加速性能。该缓存能降低每比特数据的能耗,128 MB的Infinity Cache可提供高达256位GDDR6有效带宽的3.25倍,在考虑功率时,每瓦有效带宽比单独的256位GDDR6高2.4倍。

以下是AMD Radeon系列AIB的详细参数:
| 型号 | Radeon RX 6800 XT | Radeon RX 6800 | RX 5700 XT |
| — | — | — | — |
| 架构 | RDNA 2 | RDNA 2 | RDNA |
| 制造工艺 | 7 nm | 7 nm | 7 nm |
| 晶体管数量 | 26.8亿 | 26.8亿 | 10.3亿 |
| 芯片尺寸 | 519 mm² | 519 mm² | 251 mm² |
| 计算单元 | 72 | 60 | 40 |
| 光线加速器 | 72 | 60 | - |
| 流处理器 | 4608 | 3840 | 2560 |
| 游戏GPO时钟频率 | 最高2015 MHz | 最高1815 MHz | 最高1755 MHz |
| 提升GPO时钟频率(最高) | 最高2250 MHz | 最高2105 MHz | 最高1905 MHz |
| 峰值单精度性能 | 最高20.74 TFLOPS | 最高16.17 TFLOPS | 最高9.75 TFLOPS |
| 峰值半精度性能 | 最高41.47 TFLOPS | 最高32.33 TFLOPS | 最高19.5 TFLOPS |
| 峰值纹理填充率 | 最高648.0 GT/s | 最高505.2 GT/s | 最高304.8 GT/s |
| ROPS | 128 | 96 | 64 |
| 峰值像素填充率 | 最高288.0 GPIs | 最高202.1 GPIs | 最高121.9 GPIs |
| AMD Infinity缓存 | 128 MB | 128 MB | - |
| 内存(最高) | 16 GB GDDR6 | 16 GB GDDR6 | 8 GB GDDR6 |
| 内存带宽 | 512 GB/s | 512 GB/s | 448 GB/s |
| 内存接口 | 256位 | 256位 | 256位 |
| 板卡功率 | 300 W | 250 W | 225 W |

从表格对比可以看出,Radeon RX 6800 XT在各项性能指标上都优于RX 5700 XT,体现了RDNA 2架构的优势。

在光线追踪方面,2020年AMD与索尼宣布其定制APU应用于新的索尼PS5,具备光线追踪相交着色器,可在游戏机和PC上实现实时光线追踪(RTRT)。2021年2月,基于RDNA2的Radeon RX 6000 XT AIB也具备了RTRT能力。AMD采用了混合的软硬件结合方法进行光线追踪,在纹理着色器中引入了固定功能状态机和相交检测引擎,解决了单纯硬件或软件方案的问题。

其工作流程如下:

graph LR
    A[Shader发送纹理指令] --> B[纹理地址单元(TAU)接收指令]
    B --> C[纹理缓存处理器(TCP)根据TAU提供的地址从缓存中获取BVH节点数据]
    C --> D[光线相交引擎使用光线和BVH数据进行光线 - BVH节点类型相交测试]
    D --> E[相交测试指示和结果通过纹理数据返回路径返回给Shader]
    E --> F[Shader审查相交结果和指示,决定如何遍历到下一个BVH节点]

这种混合方法具有诸多优势,如通过Shader控制整体计算可保持灵活性,必要时可绕过固定功能硬件;利用纹理处理器基础设施消除了光线存储和BVH缓存所需的大缓冲区,节省了芯片面积并降低了硬件复杂度。

3. FidelityFX Super Resolution (2021年3月)

2021年3月,AMD宣布了FidelityFX Super Resolution(FSR)技术,这是一项开源的跨平台技术,旨在提高帧率并提供高质量、高分辨率的游戏体验。

FSR的工作原理如下:
- 空间上采样 :利用算法分析源图像特征,进行边缘重建,将图像重建为更高的目标分辨率。
- 锐化处理 :通过锐化滤波器增强纹理细节,但会引入边缘噪声和其他伪像。
- 后处理 :补偿色差效应、胶片颗粒等,清理图像。

FSR有四种质量设置:Ultra Quality、Quality、Balanced和Performance,用户可根据需求调整图像质量和性能的平衡。以下是不同质量设置下的缩放因子和输入分辨率:
| FSR质量模式 | 缩放因子 | 1440p FSR输出的输入分辨率 | 4K FSR输出的输入分辨率 |
| — | — | — | — |
| 超高质量 | 每个维度1.3倍 | 1970 × 1108 | 2954 × 1662 |
| 高质量 | 每个维度1.5倍 | 1706 × 960 | 2560 × 1440 |
| 平衡 | 每个维度1.7倍 | 1506 × 847 | 2259 × 1270 |
| 高性能 | 每个维度2.0倍 | 1280 × 720 | 1920 × 1080 |

FSR的优势在于它能减轻光栅扫描渲染速度受图像中多边形数量的影响,且受屏幕分辨率影响较小。与Nvidia通过AI滤波降低图像分辨率再缩放的方法不同,FSR无需AI滤波及其伴随的开销。它与多种GPU兼容,包括旧款AMD GPU和Nvidia AIB,只需DirectX 11作为最低官方支持API,移植到DirectX 9也相对简单。

FSR由两个连续的计算着色器组成:一个进行边缘重建的上采样,另一个对结果图像进行锐化以提取像素细节。处理和抗锯齿后的数据可来自任何传统游戏,包括2D游戏、光线追踪游戏或应用,光线追踪并非必需,这使得AMD能为任何GPU和多个版本的DirectX提供FSR软件。

第六代GPU:光线追踪与网格着色器技术解析(续)

4. Innosilicon (2021)
4.1 GPU领域的新参与者

2021年,加密货币ASIC制造商Innosilicon将其技术应用于GPU的研发,采用了Imagination Technologies的BXT 32 - 1024 MC4 RTL IP。该公司成立于2006年,位于中国珠海,在上海和武汉设有研发中心,2022年全球员工超过700人。其业务从最初的RFID和定制LTD芯片,扩展到卫星通信、AI内存芯片控制器,再到定制ARM CPU和加密货币挖矿市场。

尽管Innosilicon在内存带宽管理方面有一定优势,开发了可实现64 GB/s的GDDR6超高速PHY,并使用四级脉冲幅度调制(PAM4)信号,但测试显示其自主GPU设计在主流市场竞争力不足。不过,该公司决定结合Imagination的GPU、自身的内存管理器和张量核心,打造高端GPU/AIB,命名为Fantasy One。

4.2 Fantasy One GPU及AIB产品
  • 产品规格 :Fantasy One有九个GPU块,每个块最多可有32个核心。虽然公司未披露制程技术,但已生产出芯片并打造了AIB产品。
    | 产品类型 | 类型A AIB | 类型B AIB |
    | — | — | — |
    | 设计特点 | 多芯片(小芯片)单Fantasy One GPU设计,用于消费/工作站 | 双Fantasy One GPU设计,通过Innolink接口连接 |
    | 性能指标 | 填充率达160 GPixel/s,单精度计算能力达5 TFLOPS | 计算能力达10 TFLOPS,填充率达320 GPixel/s |
    | 输出接口 | HDMI 2.1、DisplayPort 1.4、VGA | 未提及特殊差异 |
    | 内存 | 高达16 GB GDDR6(X)内存,128位接口,内存带宽理论可达304 GB/s | 高达32 GB GDDR6(X)内存,通过双128位接口 |
    | 功耗 | 未提及特殊功耗情况 | 典型功耗仅20瓦 |
    | 支持标准 | OpenGL、OpenGL ES、OpenCL、Vulkan、DirectX(版本未披露) | 相同 |

从表格可以看出,类型B AIB在性能上更强大,但功耗控制出色,这得益于其双GPU设计和Innosilink接口的优化。

  • Innolink接口 :Innosilicon的Innolink IP芯片let解决方案允许大量低延迟数据在小芯片之间无缝传输,就像它们在同一总线上一样。该接口传输速率为56 Gbps/对,插入损耗为30 dB,可扩展到4/8/16/32/64/128通道,与PHY无关,且具有低功耗模式。

其工作流程如下:

graph LR
    A[小芯片数据传输需求] --> B[Innolink接口接收数据]
    B --> C[接口进行低延迟处理]
    C --> D[数据在小芯片间无缝传输]
4.3 市场定位与前景

Innosilicon不太可能基于Imagination的IP开发特定的矿机产品,而是将重点放在数据中心、桌面和笔记本市场。其FP32性能在5 - 6 TFLOPS之间,填充率为160 gigapixel/s,介于AMD的RX 6600和Nvidia的GTX 1660 SUPER之间;AI计算(INT8)性能为25 TOPS,拥有高达16 GB GDDR6(X)内存,内存带宽为304 GB/s。

未来,Innosilicon计划在2022年推出下一代Fantasy 2和3 GPU系列,并采用5 nm制程技术,有望进一步提升产品性能。

5. 总结与展望
5.1 市场格局变化

从上述介绍的几款GPU产品可以看出,GPU市场格局正在发生变化。Intel凭借Arc系列进入移动独立显卡市场,虽然面临与外部晶圆厂合作和向后兼容性等挑战,但展现了其在GPU领域的决心。AMD的RDNA 2架构凭借显著的性能提升和创新功能,如光线加速器和Infinity Cache,在高端市场对Nvidia构成了有力竞争。Innosilicon作为新参与者,虽然目前产品竞争力有待提高,但凭借其独特的技术和市场定位,也为市场带来了新的活力。

5.2 技术发展趋势
  • 光线追踪技术普及 :实时光线追踪(RTRT)已成为GPU的重要功能,从Xbox Series X、PS5到AMD和Nvidia的相关产品,越来越多的平台和游戏支持RTRT。这一技术让游戏更加逼真,减少了视觉干扰,提升了玩家的沉浸感。
  • 性能与效率提升 :各大厂商都在努力提高GPU的性能和效率,如AMD的RDNA 2架构在每瓦性能和频率上的提升,以及Infinity Cache对性能的加速。同时,FSR等技术的出现,在提高帧率的同时保证了图像质量,且无需依赖AI滤波等高成本技术。
  • 跨平台兼容性增强 :AMD的FSR技术是开源的跨平台技术,可与多种GPU兼容,降低了开发者的门槛,使得更多玩家能够享受到技术带来的好处。
5.3 未来发展方向

随着技术的不断进步,GPU市场有望迎来更多创新。未来可能会出现更先进的架构和功能,进一步提升游戏和图形处理的体验。同时,随着人工智能和机器学习的发展,GPU在这些领域的应用也将更加广泛。各大厂商将继续竞争,推动GPU技术向更高性能、更低功耗和更广泛兼容性的方向发展。

综上所述,第六代GPU在光线追踪和网格着色器等技术方面取得了显著进展,为游戏和图形处理带来了新的变革。未来,我们可以期待更多精彩的技术和产品出现,为用户带来更加优质的体验。

本项目构建于RASA开源架构之上,旨在实现一个具备多模态交互能力的智能对话系统。该系统的核心模块涵盖自然语言理解、语音转文本处理以及动态对话流程控制三个主要方面。 在自然语言理解层面,研究重点集中于增强连续对话中的用户目标判定效能,并运用深度神经网络技术提升关键信息提取的精确度。目标判定旨在解析用户话语背后的真实需求,从而生成恰当的反馈;信息提取则专注于从语音输入中析出具有特定意义的要素,例如个体名称、空间位置或时间节点等具体参数。深度神经网络的应用显著优化了这些功能的实现效果,相比经典算法,其能够解析更为复杂的语言结构,展现出更优的识别精度更强的适应性。通过分层特征学习机制,这类模型可深入捕捉语言数据中隐含的语义关联。 语音转文本处理模块承担将音频信号转化为结构化文本的关键任务。该技术的持续演进大幅提高了人机语音交互的自然度流畅性,使语音界面日益成为高效便捷的沟通渠道。 动态对话流程控制系统负责维持交互过程的连贯性逻辑性,包括话轮转换、上下文关联维护以及基于情境的决策生成。该系统需具备处理各类非常规输入的能力,例如用户使用非规范表达或对系统指引产生歧义的情况。 本系统适用于多种实际应用场景,如客户服务支持、个性化事务协助及智能教学辅导等。通过准确识别用户需求并提供对应信息或操作响应,系统能够创造连贯顺畅的交互体验。借助深度学习的自适应特性,系统还可持续优化语言模式理解能力,逐步完善对新兴表达方式用户偏好的适应机制。 在技术实施方面,RASA框架为系统开发提供了基础支撑。该框架专为构建对话式人工智能应用而设计,支持多语言环境并拥有活跃的技术社区。利用其内置工具集,开发者可高效实现复杂的对话逻辑设计部署流程。 配套资料可能包含补充学习文档、实例分析报告或实践指导手册,有助于使用者深入掌握系统原理应用方法。技术文档则详细说明了系统的安装步骤、参数配置及操作流程,确保用户能够顺利完成系统集成工作。项目主体代码及说明文件均存放于指定目录中,构成完整的解决方案体系。 总体而言,本项目整合了自然语言理解、语音信号处理深度学习技术,致力于打造能够进行复杂对话管理、精准需求解析高效信息提取的智能语音交互平台。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值