如何让10万块H100显卡一起工作?马斯克的xAI的计算架构

如何搭建一个 10 万块显卡的集群?

如何让10万块H100显卡一起工作?分析马斯克的xAI的计算架构

150MW的功率大致相当于一个有15万家庭的用电功率,也就是说,这个耗电量大致相当于一个中等城市的用电量。

大家好,今天跟大家分享的是马斯克的xAI如何在122天的时间里,如何用10万块显卡,搭建出目前世界上最强的算力集群。注意是最强,没有之一。

目前这个集群的算力,大概用 4 天的时间就可以训练一个 GPT-4的模型。

我们可以比较一下,根据公开可以获得的消息,GPT-4 的训练使用了约25,000NVIDIA A100 GPU,持续了 90100天。

成本

我们可以先从宏观的角度来看搭建一个10万块显卡的集群有哪些成本?

-硬件:40 亿美金

-电力:150MW

整理了一下数据,因为美国能源比较丰富,所以电价还是比较便宜的。整个机房的核心耗电大概一半会在GPU服务器上,另外一半会在普通的PC服务器和一些网络设备上面。

电力系统

三相电源

每个机架配备多个三相电源条,为GPU和其他组件提供稳定电力。三相电源能够更高效地支持高功率设备运行,减少单相系统可能带来的不均匀负载问题。

使用特斯拉 Megapack 电池组

每个Megapack的储能容量达3.9MWh,Megapack作为超级计算机和电网之间的 能量缓冲器,帮助平滑负载波动。这个实际上就是UPS,因为UPS的核心就是一个大电池加一个逆变器。因为电网的电压实际上不稳定的,所以外面的能源首先会经过Megapack 的电池组。

硬件部署

基于八路HGX GPU板卡的Supermicro机架级系统,每一个机器是4U的,上面安装8块H100的显卡,每个机架上部署8个4U的GPU服务器。每8个机架组成一个阵列,共 512片GPU。

散热系统

GPU 服务的显卡使用液冷散热

液冷系统(核心技术)

因为散热液体的导热效率更高,所以发热量大的核心部件使用液冷散热,可快速把热量带到液体中。

冷却液由每个机架底部的 冷却分配单元(Cooling Distribution Unit, CDU)提供,冷却液通过机架内的分配管道输送到各服务器,流经GPU液冷模块(NVIDIA HGX 托盘)和CPU液冷模块(x86 CPU和PCIe交换机)。

每个机架上的CDU都是冗余设计的。每个机架都有两套独立的CDU模块,CDU冷却单元、管道连接和冷却模块均支持在线热插拔。

冷却液带走设备的热量后返回CDU,再通过机房冷却系统循环降温。

风冷系统(辅助散热)

除了核心部件,例如GPU,这些部件,其它的芯片,像网卡、电源也会产生热量。用于冷却内存(DIMM)、电源单元、主板管理控制器(BMC)、网络卡。风扇从机架前部吸入冷空气,将冷却后的热空气从后部排出。

网络拓扑

我们首先可以看到服务器后面插了一排网线,我们可以数一下,一共8根,每一根网线的速度都是400GbE的速度。整体的速度可以达到3.6Tbps

达到这种速度的网线,虽然还是以太网的技术,但是这个网线已经不是同轴电缆,只能是光纤。

这些显卡可以直接通过网线通过RDMA技术直接和另一台服务器的GPU通信,这个通信直接是显存对显存,不需要通过CPU,避免数据的多次复制。

大家仔细看,旁边这里还有一根网线,这是给CPU使用的,主要用于网络和管理功能。

RDM

ARDMA(Remote Direct Memory Access)是一种高性能数据传输技术,它允许计算机直接通过网络访问另一台计算机的内存,而无需操作系统的参与,从而显著降低了延迟和CPU用率。一般可以做到微秒级别的延迟,一半TCP/IP都是毫秒级的。

NVLink

主要用于本机的GPU和GPU,以及GPU到CPU的通信。

训练架构

架构的设计主要是为了提高容错性,从而提高任务的并行度。从宏观的角度来看,并行主要可以分为指令并行和数据并行。

数据并行

每个GPU保留模型的完整副本,处理不同的数据分片。优点是通信需求较低,适合内存足够大的GPU,但对于超大模型可能受限于显存,对于GPT-4这种级别的模型显然是不够。

张量并行

简单来讲就是把神经网络的的每一层分布到不同的GPU去计算,包括线性变换激活函数注意力机制等。张量并行的目标是将每一层的计算拆分为多个部分,分布到不同的GPU上处理,从而实现并行化。这个需要低延迟的通信环境。

参考资料

100,000 H100 Clusters: Power, Network Topology, Ethernet vs InfiniBand, Reliability, Failures, Checkpointing – SemiAnalysis

https://resources.nvidia.com/en-us-tensor-core/gtc22-whitepaper-hopper

<think>嗯,用户问的是在Ubuntu24.04上安装HGX H100模组的驱动。首先,我得确认HGX H100是什么。这应该是NVIDIA的GPU模组,属于他们的数据中心产品线,通常用于高性能计算或者AI加速。所以驱动安装应该涉及到NVIDIA的驱动,可能还有相关的软件栈,比如CUDA或者NVLink之类的。接下来,我需要考虑Ubuntu24.04的版本是否被NVIDIA官方支持。通常新的Ubuntu版本可能需要较新的驱动版本。用户可能已经查过一些资料,但找不到针对24.04的具体指南,所以需要我提供步骤。首先,安装NVIDIA驱动的一般步骤是:添加官方仓库,更新软件列表,安装驱动包。但Ubuntu24.04可能使用更新的内核,所以需要确认驱动兼容性。可能需要使用NVIDIA的官方.run文件,或者通过PPA安装。然后,HGXH100可能涉及多GPU配置,可能需要安装NVSwitch的固件或者相关工具,比如nvidia-smi、nvidia-modprobe等。此外,用户可能需要配置一些服务,比如启用持久模式,或者设置GPU的相关参数。另外,用户可能需要安装CUDA Toolkit,这通常会和驱动一起安装,但有时候分开安装更好。需要明确驱动和CUDA版本的对应关系,避免版本冲突。 可能还需要检查系统日志,确认驱动是否正确加载,使用命令如dmesg或者检查/var/log/nvidia-install.log。还有,安装后的验证步骤,比如运行nvidia-smi查看GPU状态。需要注意,用户可能没有提到他们是否已经安装了前置依赖,比如build-essential、dkms等,这些可能需要预先安装。此外,Secure Boot的问题,如果在安装驱动时遇到签名问题,可能需要禁用Secure Boot或者配置MOK。 可能还需要考虑使用容器化部署,比如使用Docker和NVIDIAContainer Toolkit,但用户的问题可能集中在驱动安装本身。最后,生成相关问题时,需要考虑用户后续可能遇到的问题,比如性能优化、多GPU配置、兼容性检查,或者驱动升级的方法。这些都可以作为相关问题提出,帮助用户进一步解决问题。</think>在Ubuntu 24.04上安装HGX H100模组驱动需要分步骤完成,以下是详细操作指南: ### 一、准备工作 1. **确认硬件兼容性** - 确保主板支持PCIe Gen4/5接口 - 检查服务器电源满足H100 700W单卡功耗要求[^2] 2. **系统更新** ```bash sudo apt update && sudo apt upgrade -y sudo reboot ``` 3. **安装编译依赖** ```bash sudo apt install build-essential dkms linux-headers-$(uname -r) -y ``` ### 二、驱动安装 1. **下载官方驱动** 访问[NVIDIA企业驱动下载页](https://www.nvidia.com/Download/index.aspx)选择: ``` Product Type: HGX Product Series: HGX H100 Operating System: Linux 64-bit ``` 2. **禁用Nouveau驱动** ```bash echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf sudo update-initramfs -u ``` 3. **安装驱动包** ```bash chmod +x NVIDIA-Linux-x86_64-*.run sudo ./NVIDIA-Linux-x86_64-*.run --dkms -s ``` ### 三、验证安装 1. **检查设备识别** ```bash nvidia-smi -q | grep "Product Name" ``` 应显示`Product Name: NVIDIA HGX H100`[^3] 2. **测试NVLink通信** ```bash sudo nvidia-smi nvlink -g 0 ``` ### 四、高级配置(可选) ```bash sudo nvidia-smi -pm 1 # 启用持久模式 sudo nvidia-smi -pl 650 # 设置功率限制 ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值