24、英伟达及Imagination的GPU技术发展与创新

英伟达与Imagination的GPU技术演进

英伟达及Imagination的GPU技术发展与创新

1. 英伟达GPU发展历程

1999年,英伟达将几何处理器和像素着色器集成到一个芯片中,创造了GPU,开启了图形芯片的新纪元。2003年,斯坦福大学开发的Brook项目利用GPU的并行处理能力进行纯计算,这一成果演变成了英伟达著名的CUDA,标志着GPU计算时代的到来,也被称为通用图形处理单元(GPGPU)和加速计算时代。此后,英伟达在GPU领域不断创新,以下是其主要发展阶段:
- Pascal 架构 :引入了FP16和INT8支持,以及NVLink技术,用于多GPU的混合立方体网格拓扑结构。GP100是基于Pascal架构的首款100系列GPU,专为数据中心设计。
- Volta 架构 :2018年3月发布的GV100采用了新的流式多处理器(SM)和第一代张量核心,用于AI计算。该GPU拥有5120个着色器、320个纹理映射单元(TMU)、128个光栅操作单元(ROP)和640个张量核心。它基于12nm工艺制造,拥有211亿个晶体管,芯片面积为815平方毫米。在2018年,其售价高达9000美元。
- Turing 架构 :TU102主要是面向游戏市场的GeForce GPU,而GV100则是专为数据中心设计的芯片。Turing架构为张量核心技术增加了INT8支持,显著加速了AI推理应用。

2. 英伟达Ampere架构(2020年5月)

2020年5月,英伟达发布了Ampere GA100,这是当时晶体管数量和面积最大的GPU,拥有540亿个晶体管,芯片面积为826平方毫米。Ampere架构在张量核心技术中增加了浮点(FP64)支持,以解决高性能计算(HPC)挑战。它还引入了多实例GPU(MIG)技术,可将单个GPU划分为多个GPU。此外,英伟达还推出了TensorFloat - 32(TF32),这是一种针对AI优化的FP32精度,目前是TensorFlow和PyTorch框架的默认FP32精度。

Ampere架构的A100具有以下特点:
| 规格 | 详情 |
| — | — |
| 晶体管数量 | 540亿 |
| 芯片面积 | 826平方毫米 |
| FP64 CUDA核心 | 3456个 |
| FP32 CUDA核心 | 6912个 |
| 张量核心 | 432个 |
| SM数量 | 108个 |
| FP64性能 | 9.7 TFLOPS |
| FP64张量核心性能 | 19.5 TFLOPS |
| FP32性能 | 19.5 TFLOPS |
| TF32张量核心性能 | 156/312 TFLOPS(启用结构化稀疏性) |
| BFLOAT16张量核心性能 | 312/624 TFLOPS(启用结构化稀疏性) |
| FP16张量核心性能 | 312/624 TFLOPS(启用结构化稀疏性) |
| INT8张量核心性能 | 624 TOPS/1248 TOPS(启用结构化稀疏性) |
| INT4张量核心性能 | 1248 TOPS/2496 TOPS(启用结构化稀疏性) |
| GPU内存 | 40 GB |
| 内存带宽 | 1.6 TB/s |
| 互连 | NVLink 600 GB/s,PCIe Gen4 64 GB/s |
| 最大功耗 | 400 W(SXM) |

A100的一个重要特性是稀疏性,即细粒度结构化稀疏性,这是一种将深度神经网络计算吞吐量提高一倍的方法。在深度学习中,由于神经网络中单个权重在学习过程中会不断演变,只有一部分权重在网络训练结束时对确定学习输出有意义,其余权重不再需要。因此,稀疏性在深度学习中既必要又可行。

此外,英伟达还基于Ampere架构推出了一系列较小版本的GPU,如GA102、GA103等,以满足不同市场需求。

3. 英伟达基于Ampere架构的超级计算机

英伟达利用八个A100 GPU和两个AMD Epyc 7742 64核、128线程CPU,以及1 TB的RAM,创建了DGX A100超级计算机。该超级计算机提供了高达10 POPS的INT8性能、5 PFLOPS的FP16性能、2.5 PFLOPS的TF32性能和156 TLOPS的FP64计算性能。相比上一代基于Volta架构的DGX - 2(拥有16个GPU),DGX A100的性能有了显著提升。

4. Imagination Technologies的光线追踪IP(2021年)

2021年11月,Imagination Technologies为其旗舰B系列GPU IP推出了最新的光线追踪IP——Imagination CXT,标志着其PowerVR Photon光线追踪架构的首次亮相。Photon架构被认为是行业内最先进的光线追踪架构,能够为移动和嵌入式应用带来桌面级的视觉效果。

Imagination Technologies在光线追踪领域有着悠久的历史,自1994年引入延迟渲染技术以来,一直在不断探索光线追踪技术。该公司定义了光线追踪加速的六个级别:
1. 传统解决方案
2. 传统GPI上的软件
3. 光线/盒子和光线/三角形测试器
4. 硬件中的边界体积层次结构(BVH)处理
5. 具有一致性排序的硬件BVH处理
6. 具有硬件BVH构建器的一致性BVH处理

Photon架构处于实时系统的第4级,是最先进的架构之一。Imagination CXT - 48 - 1536 RT3采用了光线加速集群(RAC),这是一个低功耗、专用的硬件GPU模块,能够加速并卸载更多的光线追踪计算,提高了光线追踪的性能和效率。

RAC由光线存储、光线任务调度器和一致性收集器组成,与两个128宽的统一着色集群(USC)相连,提供了高速、专用的数据路径,实现了高效、低功耗的光线追踪部署。

Imagination CXT在光栅化图形性能方面也有显著提升,相比上一代GPU IP,其计算、纹理和几何性能提高了50%。该公司还提供了光线追踪软件工具PVRTune,允许开发者查看光线追踪的低级别计数器,如每秒光线数、盒子测试器负载、缓存命中率等。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A([光线追踪开始]):::startend --> B(光线发射):::process
    B --> C{与加速结构相交?}:::process
    C -->|是| D(光线与物体相交):::process
    C -->|否| B
    D --> E(计算光照和阴影):::process
    E --> F(渲染像素):::process
    F --> G([光线追踪结束]):::startend

综上所述,英伟达和Imagination Technologies在GPU和光线追踪技术领域都取得了显著的进展。英伟达的Ampere架构和Hopper架构为数据中心和高性能计算提供了强大的支持,而Imagination Technologies的光线追踪IP则为移动和嵌入式应用带来了更逼真的视觉效果。这些技术的发展将推动AI、游戏、超级计算等领域的进一步发展。

英伟达及Imagination的GPU技术发展与创新

5. 英伟达Mega Data Center GPU Hopper(2022年)

2022年,英伟达推出了备受期待的Hopper GPU。严格来说,它更像是一个计算引擎而非传统意义上的GPU。英伟达宣称,与上一代Ampere相比,Hopper的计算性能提升了6倍。其中,2倍的提升源于芯片能够进行FP8计算以用于推理;另外2倍来自于CUDA的改进;1.3倍的提升和1.2倍的提升(虽然总和不等于6倍,但计算中存在某种乘数效应)也对整体性能提升做出了贡献。

Hopper GPU的主要参数对比如下:
| 规格 | H100 | A100 | V100 |
| — | — | — | — |
| 架构 | Hopper | Ampere | Volta |
| FP32 CUDA核心 | 16,896个 | 6912个 | 5120个 |
| 张量核心 | 528个 | 432个 | 640个 |
| 提升时钟 | ~1.78 GHz | - | - |
| 内存 | 80 GB HBM | 80 GB HBM2e | 16 GB/32 GB HBM2 |
| 内存类型时钟 | 4.8 Gbps HBM3 | 3.2 Gbps HBM2e | 1.75 Gbps HBM2 |
| 内存总线宽度 | 5120 - bit | 5120 - bit | 4096 - bit |
| 内存带宽 | 3 TB/sec | 2 TB/sec | 900 GB/sec |
| FP32向量性能 | 60 TFLOPS | 19.5 TFLOPS | 15.7 TFLOPS |
| INT8张量性能 | 2000 TOPS | 624 TOPS | N/A |
| FP16张量性能 | 1000 TFLOPS | 312 TFLOPS | 125 TFLOPS |
| TF32张量性能 | 500 TFLOPS | 156 TFLOPS | N/A |
| FP64张量性能 | 60 TFLOPS | 19.5 TFLOPS | N/A |
| 互连 | NVLink 4 | - | - |
| 芯片面积 | 814平方毫米 | 826平方毫米 | 815平方毫米 |
| 晶体管数量 | 800亿 | 542亿 | 211亿 |
| TDP | 700 W | 400 W | 300 W/350 W |
| 工艺 | TSMC 4 N | TSMC 7 N | TSMC 12 nm FFN |

Hopper GPU采用了TSMC的4 nm工艺制造,旨在运行大型应用程序,如AI、超级计算和3D宇宙。它还配备了新的软件变压器引擎,能够根据工作负载和AI智能自动在FP8和FP16格式之间切换。

英伟达CEO黄仁勋在主题演讲中表示,Hopper H100在训练性能上比英伟达的A100提升了9倍,在大语言模型推理吞吐量上提高了30倍。此外,H100是首个使用Gen5 HBM的产品,英伟达声称其I/O带宽达到40太比特每秒,比A100的HBM2E快1.5倍。目前,H100仅提供80 GB内存版本。

在面对为何继续采用大芯片策略而非像竞争对手那样采用小芯片(chiplet)策略的问题时,黄仁勋表示,大芯片在进程间通信方面比多个通过I/O电路连接的小芯片更具优势,因为芯片内的线路比芯片外的线路好几个数量级。他认为在采用小芯片之前应先尝试大芯片,这是英伟达的竞争优势。

英伟达基于Hopper GPU构建了多个强大的计算系统:
- DGX H100超级计算机 :使用多个Hopper子组件构建而成,为数据中心提供了强大的计算能力。
- Earth 2超级计算机 :由16个DGX H100组成,用于模拟和预测全球天气模式。

此外,英伟达还推出了云应用的新版本,如用于推荐系统的Merlin 1.0,以及语音识别和文本转语音服务Riva的2.0版本。

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    A([应用启动]):::startend --> B{选择计算任务}:::process
    B -->|AI训练| C(Hopper GPU计算):::process
    B -->|大语言模型推理| C
    B -->|3D宇宙渲染| C
    C --> D(数据处理):::process
    D --> E(结果输出):::process
    E --> F([应用结束]):::startend
6. 技术发展总结与展望

从英伟达的GPU发展历程来看,从早期的Pascal架构到如今的Hopper架构,每一代都在性能、功能和应用场景上有显著的提升。Ampere架构通过引入新的技术特性,如FP64张量核心和MIG技术,满足了数据中心和高性能计算的需求;而Hopper架构则进一步提升了计算性能,特别是在AI训练和推理方面。

Imagination Technologies的光线追踪IP也为移动和嵌入式设备带来了更逼真的视觉体验。其PowerVR Photon架构通过优化光线追踪算法和硬件设计,提高了光线追踪的效率和性能。

未来,随着AI、游戏、超级计算等领域的不断发展,对GPU性能和功能的要求也将不断提高。英伟达和Imagination Technologies等公司将继续投入研发,推出更先进的GPU和光线追踪技术,以满足市场需求。例如,可能会出现更高性能的计算核心、更高效的内存管理技术和更智能的算法优化。同时,随着芯片制造工艺的不断进步,GPU的功耗和成本也有望进一步降低,从而推动这些技术在更广泛的领域得到应用。

总的来说,GPU和光线追踪技术的发展将为科技行业带来更多的创新和可能性,推动各个领域的快速发展。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值