AI加速器揭秘:华为如何挑战英伟达的“AI霸主”地位?

引子

在上海世界人工智能大会(WAIC 2025)上,华为展示了 CloudMatrix 384 AI 计算系统,定位为英伟达 GB200 NVL72 的竞争对手。尽管华为的单颗芯片性能可能不如英伟达,但通过采用“超节点”架构,利用更多的昇腾 910C 芯片和创新的系统级设计,CloudMatrix 384 在性能上有望超越英伟达的产品。 (Reuters)

WAIC 2025

🏢 官方评价

华为云副总裁黄瑾在2025年5月16日的AI峰会上强调,CloudMatrix 384超节点具备六大技术创新:MoE亲和架构:支持大规模专家并行(EP320)和高效推理。 以网强算:采用全对等互联架构,提升通信效率。 以存强算:优化内存带宽,降低内存瓶颈。 长稳可靠:确保系统稳定性和可靠性。 朝推夜训:适应推理和训练的不同需求。 即开即用:支持快速部署和使用。新浪财经

华为云副总裁黄瑾

核心技术架构

昇腾910C处理器:每颗处理器集成64个AI核心,采用7nm工艺,支持BF16混合精度计算,单颗性能达到780 TFLOPS。(CCTV) 全对等光互联架构:通过392 GB/s的卡间带宽,实现384颗处理器的高效协同,支持低延迟通信,突破传统架构的瓶颈。(量子位) 模块化部署:系统由16个机柜组成,其中12个为计算机柜,每柜配置32颗处理器,4个为交换机柜,采用扁平化拓扑结构,降低延迟。(PDF股票数据)

⚙️ 性能对比与优势

指标

CloudMatrix 384

英伟达GB200 NVL72

BF16算力

300 PFLOPS

180 PFLOPS

HBM总容量

48 TB

13.2 TB

内存带宽

1229 TB/s

584 TB/s

总功耗

559.4 kW

145 kW

每FLOP功耗

高于NVL72 2.3倍

-

这些创新旨在应对大模型训练和推理对算力的高需求,推动AI产业的新发展路径。华为 CloudMatrix 384 超节点自 2025 年 4 月发布以来,已引起业界广泛关注,并获得多方评价。以下是各专业媒体和 AI 专业人士对其的综合评价:

📰 专业媒体及专业人士评价

  • CCTV: 尽管CloudMatrix 384的功耗较高,但其在算力和内存带宽方面的优势,使其在大规模AI训练和推理场景中表现出色。(business.cctv.com)

  • 量子位:CloudMatrix 384 采用全对等互联架构,通过新型高速互联总线实现 384 张卡互联成为一个超级云服务器,最高提供 300 PFLOPS 的算力规模,比业界同类产品领先 67%。该系统在吞吐量、延迟和成本控制方面表现出色,适用于大规模 AI 模型的训练和推理。在 WAIC 2025 上,CloudMatrix 384 超节点被誉为“镇馆之宝”,其基于昇腾 910C 的超节点架构和全对等互联技术,打破了传统算力、延迟和成本之间的“不可能三角”,为 AI 应用提供了强大的算力支持。 (Qbitai, Qbitai)

CloudMatrix 384

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值