英伟达微型AI工作站的1PetaFLOPS算力解析

英伟达微型Grace-Blackwell工作站正式上市

英伟达最小的Grace-Blackwell工作站本周终于登陆市场。这款最初在CES展上以"Project Digits"为名亮相的AI迷你PC,现更名为DGX Spark。这款接近NUC尺寸的系统搭载Blackwell GPU,可提供最高1PetaFLOPS的稀疏FP4性能,配备128GB统一系统内存和200Gbps高速网络连接。

尽管起售价约3000美元,体积小巧并不意味价格低廉。该系统并非面向主流PC买家,甚至不预装Windows系统,而是采用定制版Ubuntu Linux。OEM合作伙伴也将以不同品牌名称销售该产品。

专为AI与机器人开发设计

DGX Spark主要面向AI和机器人开发者、数据科学家和机器学习研究人员,旨在提供能运行高达2000亿参数模型的低成本工作站平台。此类工作负载对内存需求极高,使得在消费级显卡上运行变得不切实际。虽然高端工作站显卡(如RTX Pro 6000)最高配备96GB GDDR7显存,但单张卡售价就超过8000美元,且尚未计入平台其他成本。

目前DGX Spark在技术上是英伟达显存容量最大的工作站GPU,这一地位将保持到基于Blackwell Ultra的DGX Station正式发布。

超级芯片的微型化突破

DGX Spark的核心是GB10系统级芯片,本质上是驱动其旗舰NVL72机架系统的Grace-Blackwell超级芯片的微型化版本。GB10由两个计算芯片组成,通过英伟达专有的NVLink芯片互连技术以600GB/s速度连接。这项技术未来还将用于将英伟达GPU与某机构的客户端CPU进行互联。

GPU芯片可提供最高1PetaFLOPS的稀疏FP4性能或约31TeraFLOPS的单精度(FP32)性能,原始性能与RTX 5070相当。虽然550美元的消费级显卡提供两倍以上的内存带宽,但仅12GB的GDDR7显存会严重限制可运行的模型和AI工作负载类型。

创新架构设计

与英伟达原始Grace CPU不同,GB10的CPU芯片未采用Arm的Neoverse V2核心,而是与某机构合作开发,配备20个ARMv9.2核心。其中10个是Arm的高性能X925核心,其余基于能效优化的Cortex A725核心。

与某中心的M系列和某机构的Strix Halo SoC类似,GB10的CPU和GPU共享统一的LPDDR5x内存池。这种计算与内存的紧密耦合使芯片制造商实现了比传统PC平台高两倍以上的带宽。英伟达宣称GB10的内存带宽达到273GB/s。

高速网络扩展能力

Spark独有的高速网络功能是其区别于其他系统的关键特性。与英伟达数据中心平台一样,Spark的GB10配备集成的ConnectX-7网卡,背面配备两个QSFP以太网端口。虽然理论上可用于高速网络,但这些端口实际设计用于连接两台DGX Spark设备,从而将其微调和推理能力翻倍。

在此配置下,英伟达表示用户能够以4位精度运行高达4050亿参数模型的推理任务。

上市信息

来自英伟达、某机构、某中心、某机构、某机构、某机构和某机构等厂商的DGX Spark系统将于10月15日正式上市。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值