背景
GB200 NVL72就目前来看可谓是超级巨无霸级别的存在,72个B200的GPU+36个Grace的CPU放在一个服务器里面,GPU显存13500GB(4090标配的才16G,接近800倍),内存17T,显内存总的达到了30TB(17T+13.5T)。光是功耗问题就必须用液冷,据说早期功耗问题都都一度成为可能流产的原因。本文简单记录NVL72的一些关键信息,仅根据官网介绍分析,存在纰漏仅供参考。
GB200 NVL72实物图:一个rack(机柜)。相当于“一张机柜这么大的显卡”

要点
- GB200 NVL72是一个服务器,需要机柜级别才能放下的服务器
- GB是G和B的合称,G代表的是CPU,表示Grace CPU ;B代表的是GPU的型号,Blackwell GPU。类似HGX B200就只有GPU(8个B200的)
- NVL72中NVL是NVLink,72表示72个GPU,表示有72个GPU通过NVLink进行机内通信。类似的还有NVL2表示2个GPU的服务器。
- GB200 NVL72是由36 个 Grace CPU 和 72 个 Blackwell GPU。
- GB200 NVL72 是一款液冷机架级解决方案
- GB200 NVL72 使用的核心组件芯片不是多个B200和多个Grace CPU独立组成,而是一个叫做GB200 Grace Blackwell 的超级芯片,也叫Blackwell Superchip。 该超级芯片应该是使用类似chiplet技术,做了2+1+2, 把2颗B200 + 1颗Grace CPU + 2颗Blackwell Tensor Core GPU组合到一起,使用的是 NVLink-C2C的互联技术。说白了就是GPU之间通过NVLink高速高带宽低延迟总线互联到一起。(?可能是fullmesh的结
GB200 NVL72服务器关键信息揭秘

最低0.47元/天 解锁文章
691






