NVIDIA NVLink技术提升AI推理性能与灵活性

通过NVIDIA NVLink和NVLink Fusion扩展AI推理性能与灵活性

AI模型复杂度的指数级增长已推动参数数量从数百万增加到数万亿,需要前所未有的计算资源,这些资源需要GPU集群来容纳。混合专家架构和具有测试时间缩放的AI推理的采用进一步增加了计算需求。为了高效部署推理,AI系统已向大规模并行化策略发展,包括张量、流水线和专家并行。这推动了对通过内存语义纵向扩展计算结构连接的更大GPU域的需求,以作为计算和内存的统一池运行。

这篇博客文章详细介绍了NVIDIA NVLink纵向扩展结构技术的性能和广度如何通过NVIDIA NVLink Fusion提供,以满足复杂AI模型日益增长的需求。

图1. 不断增长的模型大小和复杂性推动纵向扩展域的大小

NVLink如何持续演进并满足纵向扩展需求

NVIDIA于2016年首次推出NVLink,以克服PCIe在高性能计算和AI工作负载中的局限性。它实现了更快的GPU到GPU通信,并创建了统一的内存空间。

2018年,NVIDIA NVLink交换技术的推出在8-GPU拓扑中实现了每个GPU之间300 GB/s的全互联带宽,为多GPU计算时代的纵向扩展计算结构铺平了道路。NVIDIA可扩展分层聚合和缩减协议技术随第三代NVLink交换机引入,带来了优化带宽缩减和集体操作延迟降低等性能优势。

随着2024年第五代NVLink的发布,NVLink交换机增强功能支持72个GPU以1,800 GB/s的速度进行全互联通信,提供130 TB/s的总聚合带宽——比第一代高出800倍。

尽管已大规模生产部署近十年,NVIDIA仍在不断突破极限,以每年一代的速度交付接下来的三代NVLink。这种方法提供了持续的技术进步,与AI模型复杂性和计算需求的指数级增长相匹配。

图2. NVLink纵向扩展成熟度与创新速度提升

NVLink性能依赖于硬件和通信库——特别是NVIDIA集体通信库。

NCCL是作为开源库开发的,用于加速单节点和多节点拓扑中GPU之间的通信,实现了接近理论值的GPU到GPU通信带宽。它无缝支持纵向扩展和横向扩展,并包括自动拓扑感知和优化。NCCL已集成到每个主要的深度学习框架中,受益于10年的开发和10年的生产部署。

图3. NCCL跨越纵向扩展和横向扩展,在所有主要框架中得到支持

最大化AI工厂收入

NVIDIA在NVLink方面的硬件和库经验,以及大域规模,满足了当今的AI推理计算需求。72-GPU机架架构通过在各种用例中实现最佳推理性能,在这种对齐中发挥着关键作用。在评估LLM推理性能时,前沿帕累托曲线显示了每瓦吞吐量与延迟之间的平衡。

AI工厂生产力和收入的目标是最大化曲线下面积。许多变量影响曲线动态,包括原始计算能力、内存容量和吞吐量,以及支持跨张量、流水线、专家并行等进行优化并实现高速通信的纵向扩展技术。

在检查各种纵向扩展配置的性能时,我们看到了显著的差异。即使NVLink速度保持不变,这些变化也会发生。

  • 在没有交换机的4-GPU网状网络中,NVLink的曲线因分配给每个GPU的带宽拆分而受到影响。
  • 采用NVLink交换机的8-GPU拓扑显著提升了性能,因为它实现了每个GPU到GPU连接的全带宽。
  • 增加到采用NVLink交换机的72-GPU域可以最大化收入和性能。

图4. NVLink纵向扩展结构驱动AI工厂收入

NVLink Fusion提供对NVLink纵向扩展技术的定制访问

NVIDIA推出NVLink Fusion,旨在让超大规模用户能够访问所有经过生产验证的NVLink纵向扩展技术。它使得定制硅片能够与NVIDIA NVLink纵向扩展结构技术和机架规模架构集成,用于半定制AI基础设施部署。

对NVLink纵向扩展结构技术的访问包括NVLink SERDES、NVLink芯片组、NVLink交换机以及机架规模架构的所有方面。高密度机架规模架构包括NVLink主干、铜缆系统、机械创新、先进的电力和液体冷却技术,以及具备供应链就绪态的生态系统。

NVLink Fusion为定制CPU、定制XPU或组合的定制CPU和定制XPU配置提供灵活的解决方案。作为模块化开放计算项目MGX机架解决方案提供,使得NVLink Fusion能够与任何NIC、DPU或横向扩展交换机集成,为客户提供了构建所需产品的灵活性。

图5. NVLink Fusion采用NVLink纵向扩展结构的灵活基础设施选项

对于定制XPU配置,与NVLink的接口利用通用芯片互连高速IP和接口的集成。NVIDIA提供用于UCIe到NVLink的桥接芯片组,以实现最高性能和易于集成,同时为采用者提供与NVIDIA相同级别的NVLink功能访问权限。UCIe是一个开放标准,通过使用此接口进行NVLink集成,客户可以灵活地为其当前或未来平台的XPU集成需求选择其他选项。

图6. 通过NVLink芯片组,XPU访问NVLink的NVLink Fusion

对于定制CPU配置,建议集成NVIDIA NVLink-C2C IP以实现与NVIDIA GPU的连接,从而获得最佳性能。配备定制CPU和NVIDIA GPU的系统可以访问作为CUDA平台一部分的数百个NVIDIA CUDA-X库,以实现加速计算中的先进性能。

图7. 通过NVLink-C2C,定制CPU访问NVLink的NVLink Fusion

得到广泛、生产就绪的合作伙伴生态系统的支持

NVLink Fusion包含一个强大的硅生态系统,包括定制硅片、CPU和IP技术合作伙伴。这确保了广泛的支持和快速的设计导入能力,并伴随着持续的技术进步。

对于机架产品,采用者受益于我们的系统合作伙伴网络和数据中心基础设施组件提供商,它们已经在批量生产NVIDIA GB200 NVL72和NVIDIA GB300 NVL72系统。结合的生态系统和供应链使采用者能够加速其上市时间,减少生产中唯一的机架级纵向扩展结构的启动时间。

为AI推理带来更强大的性能

NVLink在应对AI推理时代的计算需求方面实现了重大飞跃。通过利用在NVLink纵向扩展技术方面长达十年的专业知识,结合OCP MGX机架架构和生态系统的开放、生产部署标准,NVLink Fusion为超大规模用户提供了无与伦比的性能和全面的定制选项。

了解更多关于NVLink Fusion的信息。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值