2024年3月19日,英伟达CEO黄仁勋在GTC大会上公布了新一代AI芯片架构BLACKWELL,并推出基于该架构的超级芯片GB200,将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式 AI 等领域。
为了纪念杰出的数学家David H. Blackwell,英伟达 Blackwell架构被明确设计用来满足现代人工智能工作负载日益增长的计算和带宽需求。随着人工智能模型在规模和复杂性上呈指数级增长,对先进计算能力和内存容量的需求变得至关重要。Blackwell图形处理器架构通过在性能和效率方面实现大幅跃升,解决了这些需求。
HGX B200 训练性能提升3倍,推理能力提升 15 倍
GB200由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成,采用台积电4纳米工艺制程,共有2080亿个晶体管,其AI性能为每秒20千万亿次浮点运算。

英伟达还构建了由72张GB200构成的DGX GB200 NVL72超级计算机。该超级计算机在内部节点间使用铜缆连接,以降低功耗。

Blackwell 图形处理器采用双芯片配置,通过英伟达高带宽接口(NV-HBI)将两个最大可制造芯片合并为一个图形处理器单元,支持10TB/s带宽,形成高效的通信通道,提升整体性能。
配备192GB的HBM3e内存、超过8TB/s的峰值内存带宽和1.8TB/s的NVLink带宽,使处理能力翻倍,大幅增加内存容量和带宽,为处理大规模人工智能模型和复杂计算提供必要资源。
针对大规模模型如GPT-MoE-1.8T,HGX B200的推理性能比上一代NVIDIA Hopper™提高了15倍。采用第二代Transformer引擎、定制的Blackwell Tensor Core技术、TensorRT™-LLM和Nemo™框架的创新,显著加速了大型语言模型(LLM)和专家混合(MoE)模型的推理过程。
第二代Transformer引擎采用8位浮点(FP8)和新的精度等技术,将大型语言模型如GPT-MoE-1.8T的训练速度提高3倍。同时,第五代NVLink、InfiniBand网络和NVIDIA Magnum IO™软件的支持,确保企业和广泛GPU计算集群的高效可扩展性。

HGX B200 深度学习推理能力
英伟达第五代 NVLink 技术的整合支持多达 576 个图形处理器,提供 3.6 千万亿次网络内计算,在网络结构中直接减少和组合张量,优化计算任务并增强图形处理器集群的可扩展性。
GB200 训练性能提升至 4 倍,推理能力提升至 30 倍
GB200 NVL72 集群将多个由 GB200 驱动的系统整合到一个液冷机架中。连接 36 个 GB200 超级芯片(36 个Grace中央处理器和 72 个Blackwell 图形处理器),为数据中心提供前所未有的计算能力。GB200 NVL72,解锁实时万亿参数模型,为万亿参数的大型语言模型(LLM)推理提供30倍的实时速度提升。GB200 NVL72 通过机架级设计,NVIDIA GB200 NVL72 的核心,GB200 Grace Blackwell Superchip,采用 NVIDIA NVLink-C2C 互连技术,将2个高性能 NVIDIA Blackwell Tensor Core GPU 与1个NVIDIA Grace CPU 连接,实现高效的计算协同。GB200 NVL72 同时集成尖端功能和第二代 Transformer 引擎,利用第五代NVIDIA NVLink,支持 FP4 AI 精度。

GB200 NVL72是一款性能卓越的计算平台,采用更快的第二代Transformer引擎和FP8精度,可将大型语言模型的训练速度提升4倍。通过每秒1.8TB的GPU到GPU互连速度、InfiniBand网络和NVIDIA Magnum IO™软件的第五代NVLink技术,GB200 NVL72性能显著提升。
此外,GB200 NVL72还采用液体冷却技术,提高计算密度,减少占地面积,并通过高带宽、低延迟的GPU通信,有效减少数据中心的碳足迹和能源消耗。相较于传统的NVIDIA

最低0.47元/天 解锁文章
707

被折叠的 条评论
为什么被折叠?



