NVIDIA Blackwell Ultra芯片架构深度解析

作为NVIDIA Blackwell架构家族的最新成员,Blackwell Ultra GPU基于核心创新,旨在加速训练和AI推理。它将芯片创新与系统级集成的新水平相融合,为AI工厂及其支持的大规模、实时AI服务提供更高级别的性能、可扩展性和效率。

凭借其高能效的双芯粒设计、高带宽和大容量HBM3E内存子系统、第五代Tensor Core以及突破性的NVFP4精度格式,Blackwell Ultra正在为加速计算树立新标准。本篇深度解析将阐述其架构进步、其重要性以及它们如何转化为AI工作负载的可衡量收益。

双芯粒设计:一个GPU

Blackwell Ultra由两个芯粒尺寸的裸片组成,使用NVIDIA高带宽接口(NV-HBI)进行连接。NV-HBI是一种定制、高能效的裸片间互连技术,提供10 TB/s的带宽。Blackwell Ultra采用TSMC 4NP工艺制造,拥有2080亿个晶体管——是某中心Hopper GPU的2.6倍——同时作为一个单一的、可编程的加速器运行。这使得性能大幅提升,同时保持了开发者们近二十年来熟悉的编程模型。

优点

  • 统一计算域:跨越两个裸片的160个流式多处理器(SM),提供640个第五代Tensor Core,具备15 PFLOPS的稠密NVFP4计算能力。
  • 完全一致性:共享的L2缓存,支持完全一致性的内存访问。
  • 最大硅利用:每平方毫米的峰值性能。

流式多处理器:AI工厂的计算引擎

如图1所示,Blackwell Ultra的核心是其160个流式多处理器(SM),在完整的GPU实现中组织成八个图形处理集群(GPC)。每个SM都是一个自包含的计算引擎,包含:

  • 128个用于FP32和INT32运算的CUDA核心,也支持FP16/BF16及其他精度。
  • 4个配备某中心第二代Transformer Engine的第五代Tensor Core,针对FP8、FP6和NVFP4进行了优化。
  • 256 KB的张量内存(TMEM),用于线程束同步的中间结果存储,可实现更高的重用率并减少片外内存流量。
  • 特殊功能单元(SFU),用于AI内核中的超越数学和特殊运算。

NVIDIA Tensor Core:AI计算核心

当某中心首次在Volta架构中引入Tensor Core时,它们从根本上改变了GPU在深度学习领域的潜能。Tensor Core不是一次执行一个元素的标量或向量运算,而是直接对小矩阵进行操作——在单一指令中执行矩阵乘积累加(MMA)。这与神经网络完美匹配,因为其中绝大部分计算都可归结为大型数字网格的乘法和求和。

历经数代发展,Tensor Core在能力、精度格式和并行性方面不断扩展:

  • NVIDIA Volta:8线程MMA单元,FP16训练,FP32累加。
  • NVIDIA Ampere:全线程束宽MMA,BF16和TensorFloat-32格式。
  • NVIDIA Hopper:跨128个线程的线程束组MMA,支持FP8的Transformer Engine。

Blackwell和Blackwell Ultra凭借其第五代Tensor Core和第二代Transformer Engine将这一性能提升到新的水平,为稠密和稀疏AI工作负载提供更高的吞吐量和更低的延迟。在Blackwell Ultra的160个SM中,每个SM包含四个Tensor Core,总计640个升级后可以处理最新精度格式NVFP4的Tensor Core。

这些增强不仅仅是关于原始FLOPS。新的Tensor Core与每个SM的256 KB张量内存(TMEM)紧密集成,经过优化使数据靠近计算单元。它们还支持双线程块MMA,即配对的SM在单个MMA操作上进行协作,共享操作数并减少冗余内存流量。

其结果是更高的持续吞吐量、更好的内存效率,以及更快的大批量预训练、用于后训练的强化学习和低批量、高交互性的推理。

超强NVFP4性能

NVIDIA NVFP4的引入,作为Blackwell GPU架构中新的4位浮点格式,结合了两级缩放——应用于16值块的FP8(E4M3)微块缩放,加上张量级的FP32缩放——实现了比标准FP4错误率显著更低的硬件加速量化。此Tensor Core功能可提供接近FP8等效的精度(差异通常小于~1%),同时与FP8相比,内存占用减少约1.8倍,与FP16相比最多减少约3.5倍。NVFP4为低精度AI推理实现了精度、效率和性能的最佳平衡。

Blackwell Ultra的稠密NVFP4计算能力较原始的Blackwell GPU提供了可观的性能提升。基础架构提供10 PFLOPS的NVFP4性能,而Ultra版本将其提升至15 PFLOPS——与Blackwell GPU相比提升1.5倍,与某中心Hopper H100和H200 GPU相比提升7.5倍。这一提升直接惠及大规模推理,支持更多的并发模型实例、更快的响应时间以及更低的每生成令牌成本。

注意力层中的加速softmax

现代AI工作负载严重依赖具有长输入上下文和长输出序列的注意力处理进行“思考”。Transformer的注意力层,反过来又对由SM的SFU执行的指数运算、除法和其他超越运算造成压力。

在Blackwell Ultra中,用于注意力处理的关键指令的SFU吞吐量翻倍,与Blackwell GPU相比,注意力层计算速度提升高达2倍。这一改进加速了短序列和长序列注意力处理,但对于具有大上下文窗口的推理模型尤其具有影响力——其中softmax阶段可能成为延迟瓶颈。

通过在Transformer模型中加速注意力机制,Blackwell Ultra实现了:

  • 更快的AI推理,在交互式应用中降低首令牌时间。
  • 通过减少每个查询的总处理周期来降低计算成本。
  • 更高的系统效率——每瓦特处理更多的注意力序列。

如图4所示,Blackwell Ultra中加速的注意力层指令带来的性能增益与NVFP4精度相结合,为LLM和多模态推理带来了阶跃式的改进。

内存:面向数万亿参数模型的高容量与高带宽

Blackwell Ultra不仅扩展了计算能力,还扩展了内存容量以满足最大AI模型的需求。每个GPU配备288 GB的HBM3e,提供了比H100多3.6倍的片上内存,比Blackwell多50%。这一容量对于托管万亿参数模型、扩展上下文长度而无需KV缓存卸载以及在AI工厂中实现高并发推理至关重要。

高带宽内存特性

  • 最大容量:288 GB,较H100提升3.6倍
  • HBM配置:12堆栈,16 × 512位控制器(总计8,192位宽)
  • 带宽:每GPU 8 TB/s,较H100(3.35 TB/s)提升2.4倍

巨大的内存占用空间实现了:

  • 完整的模型驻留:3000亿+参数模型无需内存卸载。
  • 扩展的上下文长度:为Transformer模型提供更大的KV缓存容量。
  • 改进的计算效率:为多样化工作负载提供更高的计算-内存比。

互连:为规模而建

Blackwell和Blackwell Ultra支持用于通过NVLink Switch进行GPU到GPU通信的第五代NVIDIA NVLink、用于与某中心Grace CPU进行一致性互连的NVLink-C2C,以及用于连接主机CPU的x16 PCI-Express Gen 6接口。

NVLink 5规格

  • 每GPU带宽:1.8 TB/s双向(18条链路 × 100 GB/s)
  • 性能缩放:较NVLink 4(Hopper GPU)提升2倍
  • 最大拓扑:在无阻塞计算架构中支持576个GPU
  • 机架级集成:72-GPU NVL72配置,总带宽130 TB/s

主机连接性

  • PCIe接口:Gen6 × 16通道(256 GB/s双向)
  • NVLink-C2C:Grace CPU-GPU通信,具有内存一致性(900 GB/s)

表1提供了各代互连技术的比较。

互连方式Hopper GPUBlackwell GPUBlackwell Ultra GPU
NVLink (GPU-GPU)9001,8001,800
NVLink-C2C (CPU-GPU)900900900
PCIe Interface128 (Gen 5)256 (Gen 6)256 (Gen 6)

表1. Hopper与Blackwell及Blackwell Ultra的互连比较(单位:双向 GB/s)

推进性能-能效

Blackwell Ultra通过为每芯片增加50%的NVFP4计算能力和50%的HBM容量,实现了对Blackwell的决定性飞跃,使得在不影响效率的情况下运行更大模型和获得更快吞吐量成为可能。加速的softmax执行进一步提升了实际推理速度,提高了每个用户的每秒令牌数(TPS/user),同时改善了数据中心每兆瓦的每秒令牌数(TPS/MW)。每一项架构增强都是为了将用户体验和运营效率提升到新水平而量身打造的。

如图6所示,绘制某中心Hopper HGX H100 NVL8系统、某中心Blackwell HGX B200 NVL8系统、某中心Blackwell GB200 NVL72系统以及某中心Blackwell Ultra GB300 NVL72系统的这两项指标,揭示了一个世代跨越。曲线以FP8精度的Hopper NVL8为起点,以NVFP4精度的Blackwell Ultra NVL72为终点——展示了每一项架构进步如何推动帕累托前沿向上和向右移动。

这些架构创新改善了AI推理的经济性,并重新定义了AI工厂设计的可能性——相比以往任何某中心平台,提供更多的模型实例、更快的响应和更高的每兆瓦输出。

企业级特性

Blackwell Ultra不仅仅是关于原始性能——它还配备了企业级特性,旨在简化运营、加强安全性并提供大规模下的可靠性能。

高级调度和管理

  • 增强的GigaThread引擎:下一代工作调度器,提供改进的上下文切换性能,并在所有160个SM间优化工作负载分配。
  • 多实例GPU(MIG):Blackwell Ultra GPU可以划分为不同大小的MIG实例。例如,管理员可以创建两个各140 GB内存的实例、四个各70 GB的实例或七个各34 GB的实例,从而实现具有可预测性能隔离的安全多租户。

安全性和可靠性

  • 机密计算和安全AI:为敏感的AI模型和数据提供安全且高性能的保护,在Blackwell架构中将基于硬件的可信执行环境(TEE)扩展至GPU,并具备业界首创的TEE-I/O能力,以及在NVLink上提供内联保护,在相比未加密模式时保持近乎一致的吞吐量。
  • 高级NVIDIA可靠性、可用性和可服务性(RAS)引擎:AI驱动的可靠性系统,监控数千个参数以预测故障、优化维护计划并最大化大规模部署中的系统正常运行时间。

AI视频和数据处理增强
Blackwell Ultra还集成了用于需要多模态数据处理的现代AI工作负载的专用引擎:

  • 视频和JPEG解码:NVIDIA视频解码器(NVDEC)和NVIDIA JPEG解码器(NVJPEG)引擎是用于高吞吐量图像和视频处理的专用固定功能硬件单元。
    • NVDEC支持现代编解码器,如AV1、HEVC和H.264,无需使用CUDA核心即可直接在GPU上进行批量或实时视频解码。
    • NVJPEG在硬件中加速JPEG解压缩,使大规模图像处理流水线显著加快。
    • 这两个引擎均被NVIDIA DALI(数据加载库)所利用,后者将它们集成到AI训练和推理工作流中,用于如图像增强、数据集预处理和多模态模型输入准备等任务。
  • 解压缩引擎:硬件加速数据解压缩,吞吐量达800 GB/s,减少CPU开销并加速分析工作负载的压缩数据集加载。NVIDIA nvCOMP支持解压缩引擎的可移植编程。

NVIDIA GPU芯片规格对比总结

为全面了解Blackwell Ultra的进步,表2比较了Hopper、Blackwell和Blackwell Ultra的关键芯片规格。它突显了晶体管数量、内存容量、互连带宽和精度计算吞吐量方面的世代跨越,以及注意力加速和NVFP4等架构增强。这种并排对比展示了Blackwell Ultra如何在节点和机架规模上扩展性能并延伸对于AI工厂部署至关重要的能力。

特性HopperBlackwellBlackwell Ultra
制造工艺TSMC 4NTSMC 4NPTSMC 4NP
晶体管800亿2080亿2080亿
每GPU裸片数122
NVFP4 稠密 | 稀疏性能10 | 20 PFLOPS15 | 20 PFLOPS
FP8 稠密 | 稀疏性能2 | 4 PFLOPS5 | 10 PFLOPS5 | 10 PFLOPS
注意力加速 (SFU EX2)4.5 万亿次指数运算/秒5 万亿次指数运算/秒10.7 万亿次指数运算/秒
最大HBM容量80 GB HBM (H100)
141 GB HBM3E (H200)
192 GB HBM3E288 GB HBM3E
最大HBM带宽3.35 TB/s (H100)
4.8 TB/s (H200)
8 TB/s8 TB/s
NVLink带宽900 GB/s1,800 GB/s1,800 GB/s
最大功率 (TGP)高达 700W高达 1,200W高达 1,400W

表2. NVIDIA GPU芯片比较

从芯片到AI工厂

Blackwell Ultra GPU构成了某中心下一代AI基础设施的支柱——从桌面超级芯片到完整的AI工厂机架,提供变革性的性能。

NVIDIA Grace Blackwell Ultra超级芯片
这款超级芯片通过NVLink-C2C将一个Grace CPU与两个Blackwell Ultra GPU耦合,提供高达30 PFLOPS稠密和40 PFLOPS稀疏的NVFP4 AI计算能力,并拥有结合HBM3E和LPDDR5X的1 TB统一内存,实现前所未有的节点上容量。ConnectX-8 SuperNIC提供800 Gb/s的高速网络连接。NVIDIA Grace Blackwell Ultra超级芯片是GB300 NVL 72机架级系统的基础计算组件。

NVIDIA GB300 NVL72机架级系统
这个液冷机架集成了36个Grace Blackwell超级芯片,通过NVLink 5和NVLink Switching互连,使其能够实现1.1 exaFLOPS的稠密FP4计算。GB300 NVL72还实现了50倍更高的AI工厂输出,结合了相对于Hopper平台10倍更好的延迟(每个用户的TPS)和5倍更高的每兆瓦吞吐量。GB300系统也重新定义了机架电源管理。它们依靠多电源架配置来处理GPU的同步负载斜坡。某中心的电源平滑创新——包括能量存储和消耗机制——有助于稳定训练工作负载期间的功耗。

NVIDIA HGX和DGX B300系统
标准化的8 GPU Blackwell Ultra配置。NVIDIA HGX B300和NVIDIA DGX B300系统继续支持AI基础设施的灵活部署模型,同时保持完全的CUDA和NVLink兼容性。

完整的CUDA兼容性

Blackwell Ultra在保持与整个CUDA生态系统完全向后兼容的同时,引入了针对下一代AI框架的优化:

  • 框架集成:在SGLang、TensorRT-LLM和vLLM中原生支持,并为NVFP4精度和双裸片架构提供优化内核。
  • NVIDIA Dynamo:一个分布式推理和调度框架,智能地在数千个GPU间编排工作负载,为大规模部署提供高达30倍的更高吞吐量。
  • NVIDIA Enterprise AI:端到端、云原生的AI软件平台,提供优化的框架、SDK、微服务和企业级工具,用于大规模开发、部署和管理AI工作负载。
  • NVIDIA开发工具和CUDA库:
    • CUTLASS用于自定义内核开发
    • Nsight Systems和Nsight Compute用于性能分析和调优
    • Model Optimizer用于精度感知的图优化
    • cuDNN用于深度学习原语
    • NCCL用于多GPU通信
    • CUDA Graphs用于减少启动开销

总结

NVIDIA Blackwell Ultra为AI工厂以前所未有的规模和效率训练和部署智能奠定了基石。凭借其在双裸片集成、NVFP4加速、海量内存容量和先进互连技术方面的突破性创新,Blackwell Ultra使得以前在计算上不可能的AI应用成为可能。

随着行业从概念验证AI向生产型AI工厂过渡,Blackwell Ultra提供了将AI雄心转化为现实的算力基础,具备无与伦比的性能、效率和规模。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值