大规模AI计算集群的网络环境需求，Infiniband还是超低时延以太网？

最新推荐文章于 2025-09-26 03:10:05 发布

原创最新推荐文章于 2025-09-26 03:10:05 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #云计算 #人工智能

文章介绍了微软为OpenAI构建的大型超级计算机，用于支持ChatGPT等AI深度学习模型的训练。强调了网络传输在大规模集群训练中的重要性，特别是InfiniBand网络的角色。微软推出了NDH100v5虚拟机，使用NVIDIAH100GPU和InfiniBand互连。同时，文章探讨了InfiniBand的局限性和RoCEv2在以太网上的应用，展示了一种低成本、低时延的网络替代方案。

01 ChatGPT背后的基础设施：AI计算集群

早在2019年向 OpenAI 投资10亿美元的时候起，微软就同意为这家 AI 初创企业构建一台大型超级计算机。近期，微软在官博上连发两文，亲自解密了这台超级昂贵的超级计算机以及Azure的重磅升级。负责云计算和AI业务的微软副总裁 Scott Guthrie 表示，微软在这个项目上花费了数亿美元，将数以万计的 Nvidia A100 GPU 和 Azure 云计算平台串联在一起。

对于诸如 ChatGPT 这类 AI 深度学习模型，巨量的高性能算力无疑是重中之重。但是人们常常容易忽略网络传输在AI训练提速中的作用。尤其是大规模集群分布式训练的场景下，网络扮演了一个极为关键的角色：为了训练一个大型语言模型，计算工作量被分配到集群中成千上万个 GPU 上，这就需要借助高吞吐、低时延的网络达成大算力芯片间的协同工作，以整合海量芯片的算力。

我们从Azure面向“生成式AI”所做的基础设施升级也可以看到，网络互连能力在其中占据了很大比重。

微软推出了 ND H100 v5 虚拟机，它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU，这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比，客户将看到人工智能模型的性能显着提高，这些创新技术包括：

8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联
每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand，每个虚拟机有3.2Tb/s的无阻塞胖树型网络
NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
第四代英特尔至强可扩展处理器
PCIE Gen5到GPU互连，每个GPU有64GB/s带宽
16通道4800MHz DDR5 DIMM