谷歌Ironwood架构TPU v7:用AI造AI,撼动英伟达芯片帝国

谷歌Gemini 3击败了OpenAI,Nano Banana Pro震惊了世界。

要问我模型为什么这么强?且看Ironwood架构TPU v7你需要知道的3件事。

谷歌发布的第七代TPU Ironwood,是DeepMind团队用AlphaChip设计的芯片,以9.6 Tb/s的光互联带宽和1.77 PB的共享显存池,彻底重构了大模型推理的硬件基准。

11月25日,谷歌云揭开了其第七代定制芯片——Ironwood的面纱。

不同于以往单纯追求浮点运算能力的提升,这款芯片展现了谷歌对AI发展阶段的最新判断:训练不再是唯一的瓶颈,如何高效、实时地服务那些千亿参数的庞然大物,才是商业闭环的关键。

Ironwood是谷歌将DeepMind的研究能力与底层硅工程深度绑定的产物,其核心逻辑在于用极致的带宽换取模型响应的低延迟。

推理时代的硬件重构与光互联

过去几年,所有的目光都集中在训练上,如何让模型变得更聪明是唯一的考量。

随着Gemini等前沿模型进入大规模应用,算力消耗的重心不可避免地向推理倾斜。

推理和大模型训练对硬件的需求截然不同。

训练需要吞吐量,是可以容忍一定延迟的批处理任务。

推理则是实时的,它要求芯片在毫秒级的时间内响应用户的请求,每一个Token的生成都必须争分夺秒。

Ironwood正是为此而生。

官方数据显示,Ironwood在单芯片性能上相比上一代实现了超过4倍的提升。

这并非单纯依靠制程红利,而是源于架构层面对数据流动的优化。

在大模型推理中,计算单元往往因为等待数据搬运而空转。

Ironwood通过并行处理优化,最大限度地减少了数据在芯片内部穿梭(Data Shuttle)的时间。

真正的杀手锏在于片间互联(ICI)。

现代AI不再是单打独斗,而是集群作战。

当一个模型的参数量超过单卡显存上限时,模型必须被切分到成百上千张芯片上。

此时,芯片之间的通信速度决定了整个系统的短板。

Ironwood引入了速率高达9.6 Tb/s的ICI网络。

这是一个惊人的数字。在通用的数据中心网络中,400 Gb/s或800 Gb/s已属高端,而谷歌在TPU之间构建了一条比主流网络快一个数量级的高速公路。

这种极高带宽的直连,使得数据在芯片间传输的延迟几乎可以忽略不计。

物理上,它们是独立的硅片;逻辑上,它们被融合成了一颗巨大的超级芯片。

这种设计思路直接挑战了传统的冯·诺依曼架构瓶颈。

在Ironwood集群中,计算与通信的边界变得模糊。

对于拥有万亿参数的MoE(混合专家)模型而言,不同专家模块分布在不同芯片上,9.6 Tb/s的带宽保证了模型在调用这些专家时,就像调用本地内存一样流畅。

超级节点与1.77PB内存池

算力的堆叠需要容器,谷歌给出的答案是Superpod(超级节点)。

根据技术文档,一个Ironwood Superpod最大可扩展至9,216个芯片。

将近万颗高性能芯片集成在一个单独的通信域中,这在工程上本身就是一项壮举。

支撑这一架构的核心不仅是算力,更是内存。

大模型时代,显存容量决定了能加载多大的模型,显存带宽决定了模型跑得有多快。

Ironwood Superpod提供了一个高达1.77 PB(Petabytes)的共享高带宽内存(HBM)池。

1.77 PB的概念大约相当于1800台高端消费级电脑的硬盘容量总和,但这全是超高速的HBM。

这意味着,即使是目前最庞大的前沿模型,也可以将全部参数完整地加载到这个高速内存池中,无需在慢速的硬盘和内存之间反复倒腾数据。

这种全内存驻留的模式,彻底消除了I/O瓶颈,让大规模推理的能效比达到了新的高度。

下图展示了谷歌TPU近几代的关键参数演进,可以清晰看到这种暴力美学的进化轨迹:

数据直接反映了战略重心的转移。从v4到Ironwood,互联带宽提升了30倍以上。

谷歌很清楚,在摩尔定律放缓的今天,单点的晶体管密度提升已经很难挖掘,唯有通过极致的互联将数量转化为质量。

AI设计AI:AlphaChip的闭环

Ironwood的另一个显著特征在于它的诞生地——它是由AI设计的。

芯片设计通常是一项耗时数年的人力密集型工作。

工程师需要花费大量精力规划电路布局(Floorplanning),以平衡散热、能耗和信号延迟。

这是一场在微米级画布上进行的复杂俄罗斯方块游戏。

谷歌DeepMind团队开发的AlphaChip改变了这一规则。

AlphaChip将芯片布局视为一个强化学习(Reinforcement Learning)问题。

通过在数以万计的布局方案中自我博弈和试错,AI能在几小时内生成优于人类资深工程师数周工作的布局方案。

Ironwood是连续第三代完全采用AlphaChip生成的TPU。

这种AI设计AI的模式构成了谷歌独有的飞轮效应:更强的TPU训练出更强的AlphaChip,更强的AlphaChip设计出下一代更强的TPU。

这种迭代速度是依赖传统EDA(电子设计自动化)工具的厂商难以企及的。

文档中提到,DeepMind的研究人员直接与硬件工程师协同工作。

当Gemini模型的架构师需要某种特定的算子加速时,他们可以直接影响TPU的设计指标。

这种软件定义硬件(Software Defined Hardware)的垂直整合能力,让谷歌在面对特定工作负载时,往往能比通用GPU取得更高的效率。

市场格局的暗流与英伟达的护城河

Ironwood的问世,不可避免地会被拿来与英伟达(Nvidia)的旗舰产品做对比。

长期以来,英伟达凭借CUDA生态和强大的NVLink技术统治着AI算力市场。

H100和Blackwell系列芯片几乎成为了硬通货。Ironwood的出现,从两个维度对这种垄断构成了冲击。

首先是推理成本的博弈。

对于训练任务,开发者或许离不开CUDA丰富的算子库。

但在推理阶段,任务相对单一且固定。

如果谷歌云通过Ironwood提供了比英伟达GPU更低延迟、更低成本的API服务,大量的商业客户会毫不犹豫地用脚投票。

毕竟,对于大多数应用层公司来说,他们不需要关心底层跑的是GPU还是TPU,他们只关心每百万Token的价格和响应速度。

其次是Meta等巨头的战略摇摆。

Meta虽然拥有自研芯片MTIA,但目前仍大量采购英伟达显卡。

Ironwood展示的技术路径——通过超高带宽互联解决显存墙问题——给行业提供了一个可行的替代方案。

Meta一直在寻求摆脱单一供应商依赖。

看到TPU在处理超大模型时的能效优势,扎克伯格(Mark Zuckerberg)可能会加速自研芯片向高带宽互联架构的演进,或者在部分非核心业务上尝试采用谷歌云的TPU算力作为补充。

虽然谷歌不会直接出售Ironwood芯片,但它作为一种云服务基础设施,分流了英伟达潜在的市场需求。

全球AI芯片市场正在从通用红利走向专用红利。

英伟达的GPU为了兼容图形渲染和各种科学计算,保留了大量通用架构。

而TPU去掉了所有与AI矩阵运算无关的部件,将晶体管全部投入到核心任务中。

在摩尔定律逼近物理极限的当下,这种专用化(Specialization)是提升性能的必经之路。

Ironwood是对未来计算范式的一种预演。

它告诉我们,未来的超级计算机不再是由无数个计算孤岛组成的松散联盟,而是一个由光和铜缆紧密编织在一起的神经网络。在这个网络中,数据不再需要长途跋涉,计算无处不在。

Ironwood提供了一个清晰的信号:AI算力的竞争,已经从单卡的肌肉秀,升级为集群通信和系统级设计的立体战。

参考资料:

https://blog.google/products/google-cloud/ironwood-google-tpu-things-to-know/

E

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值