英伟达的GPU(5)

部署运行你感兴趣的模型镜像

上一章地址 英伟达的GPU(4) (qq.com)

我们之前讲过了GPU的kernel,线程划分,内存管理

这节我们讲一下多个GPU的通信

从这张 NVLink 性能发展的图表可以看出,NVLink 技术自 2014 年以来经历了多次升级,性能不断提高。以下是各代 NVLink 的发展和性能提升情况:

NVLink 性能发展历程

  1. P100 (1st Generation NVLink):
  • 发布年份:2014
  • 性能:第一代 NVLink,数据传输速率在 300 GB/sec 。
  1. V100 (2nd Generation NVLink):
  • 性能:第二代 NVLink,相比第一代有显著提升,数据传输速率约为 600 GB/sec。
  1. A100 (3rd Generation NVLink):
  • 性能:第三代 NVLink,再次提升,数据传输速率约为 600 GB/sec。
  1. H200 (4th Generation NVLink):
  • 性能:第四代 NVLink,进一步提升,数据传输速率在 900 GB/sec 。
  1. GB200 (5th Generation NVLink):
  • 性能:第五代 NVLink,最新一代 NVLink,数据传输速率约为 1800 GB/sec。

这里面保不齐有学通信的兄弟就会问了,你这为啥用B,也就是byte,正常描述带宽都是用bit啊

但NVlink这东西它也不是要跟以太网,或者SDH啥的比,人家是跟PCIE比。

我们来看一下PCIE的发展史(我都四舍五入了,看个整,比如PCIE3是985M,这误差写1G了也不耽误看):

  1. PCIe 1.0 (2003)
  • 每通道带宽:250 MB/s
  • 双向带宽:500 MB/s
  • 总带宽(16通道):4 GB/s(单向)
  • 特点:首次引入,替代旧的PCI和AGP接口。
  1. PCIe 2.0 (2007)
  • 每通道带宽:500 MB/s
  • 双向带宽:1 GB/s
  • 总带宽(16通道):8 GB/s(单向)
  • 特点:带宽翻倍,支持改进的电源管理功能。
  1. PCIe 3.0 (2010)
  • 每通道带宽:1 GB/s
  • 双向带宽:2 GB/s
  • 总带宽(16通道):16 GB/s(单向)
  • 特点:进一步翻倍,改进信号编码,提高数据传输效率。
  1. PCIe 4.0 (2017)
  • 每通道带宽:2 GB/s
  • 双向带宽:4 GB/s
  • 总带宽(16通道):32 GB/s(单向)
  • 特点:带宽再次翻倍,适应高速存储和图形需求。
  1. PCIe 5.0 (2019)
  • 每通道带宽:4 GB/s
  • 双向带宽:8 GB/s
  • 总带宽(16通道):64 GB/s(单向)
  • 特点:显著提升带宽,以满足下一代计算和数据需求,如AI和大数据分析。
  1. PCIe 6.0 (预计2024)
  • 每通道带宽:8 GB/s
  • 双向带宽:16 GB/s
  • 总带宽(16通道):128 GB/s(单向)
  • 特点:带宽翻倍,采用PAM-4调制技术,提高传输效率和可靠性。
  • 明年预计的7.0估计单通道双向30GB/s, 16通道也能到小500GB/s(双向)

后来就出了Nvswitch这种板载的交换芯片,就是替换上图的PCIE switch的。

虽然说Nvswitch不会增强物理信号的带宽,但是,它让任何两块卡都是点到点的一跳通信了(跟交换机的CLos系统一样,无阻塞通信),极大的提升了通信效率

但是我们发现GPU和GPU之间的通信问题解决了,但是GPU到CPU之间还是走得PCIE,也就是说比如你要CPU和GPU之间的通信(分模型,分训练数据,写checkpoint啥的)还是要来回转通信介质,同时速度也不成。

这个问题在GH架构里也给解决了,Grace CPU和HGPU,直接NVlink通信了,可别小看块,真正很多模型训练慢,很多问题还真是在这块,不信你试试。

在第5代Nvlink,也就是B系列之前,Nvlink都是玩内部通信的,所以你们看它的能力也就是8。

从Blackwell开始,NVlink出圈了,不只在机器里面待着,要出去大干一票(抢IB和RoCE的地盘了)

大概长这样 GB200 NVL72

这一个东西含有36个Grace CPU,72个B GPU,全部都有Nvlink来通信,后面还有更大的扩展,最大支持576个GPU,明眼人一看这基本就不给RoCE活路了,RoCE以后就在非NV的平台上玩吧(IB毕竟NV自己在主推,而且超过500的GPU,不还是得IB)。

这样你GPU跨多个机箱甚至机柜,这些GPU和CPU到彼此也就是一跳而已,而且也不用转信号,Nvlink到PCIE,也不占通信时钟,所有的时钟全留给计算,通信就交给Nvlink就完事了。

从某种程度上我个人觉得,这个才是后面NV系列GPU的最大的竞争力。

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

<think>好的,用户想了解NVIDIA GPU的相关信息,包括介绍、技术参数和应用场景。首先,我需要整理已有的引用内容,确保信息准确。引用[1]提到NVIDIA GPU广泛应用于深度学习、HPC和图形计算,技术参数部分可能需要详细展开。引用[2]指出架构演进类似Intel CPU,所以需要分代介绍架构,比如Fermi到Hopper。引用[3]介绍了CUDA核心的概念,以及A100和H100的信息,这部分要重点强调。 接下来,用户需要技术参数,应该包括CUDA核心、显存、Tensor Core、FP32性能等。应用场景方面,需要覆盖深度学习训练、推理、HPC、图形渲染等。同时,用户可能想知道不同GPU型号的差异,比如A100和H100的区别,或者消费级与计算卡的不同。 要确保回答结构清晰,分点列出。需要检查是否有遗漏的重要参数,比如NVLink或PCIe版本,以及最新的架构特性。可能用户对如何选择适合自己需求的GPU感兴趣,但问题中没有直接提到,不过应用场景部分可以间接回答。 注意使用正确的LaTeX格式,比如技术参数中的数值可能需要用行内公式,但根据引用内容,可能不需要太多数学表达式。最后,生成的相关问题要围绕NVIDIA GPU的技术细节、比较和应用,确保问题有针对性,帮助用户深入理解。</think>### NVIDIA GPU介绍与技术参数 #### 1. 核心架构与演进 NVIDIA GPU架构经历了多代革新,主要架构包括: - **Fermi**(2010):首个支持ECC显存与双精度计算的架构[^2] - **Kepler**(2012):引入动态并行技术 - **Volta**(2017):首次集成Tensor Core - **Ampere**(2020):第三代Tensor Core与多实例GPU(MIG)技术 - **Hopper**(2022):支持Transformer引擎与NVLink-C2C互连[^3] #### 2. 关键参数指标 $$ \text{理论性能} = \text{CUDA核心数} \times \text{核心频率} \times 2\ (\text{每周期双指令}) $$ | 参数 | 说明 | |------|------| | CUDA核心 | 并行计算单元,如A100含6912个CUDA核心 | | 显存带宽 | H100采用HBM3显存,带宽达3TB/s | | Tensor Core | 专用AI计算单元,A100的TF32性能达312TFLOPS | | FP32性能 | RTX 4090达82.6 TFLOPS | #### 3. 应用场景 - **深度学习训练**:A100/H100支持大规模模型分布式训练[^1] - **科学计算**:CUDA加速计算流体力学、分子动力学模拟 - **实时渲染**:GeForce RTX系列支持光线追踪与DLSS技术 - **边缘计算**:Jetson系列用于自动驾驶与机器人控制[^2] ```text 典型产品对比: 1. 计算卡:A100(训练) / H100(大模型) 2. 消费级:RTX 4090(游戏/渲染) 3. 边缘端:Jetson Orin(嵌入式AI) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值