
大模型的出现使得AI芯片的需求暴增,但在这个市场,英伟达占据了近90%份额,其市值也曾超过3万亿美元。
为什么英伟达能一家独大?尽管芯片市场上还有AMD等厂商,但在需要大规模算力集群的大模型预训练阶段,英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台,这对其他芯片厂商来说存在非常高的门槛,当然,英伟达GPU软件栈在加速方面也具有优势。
随着大模型推理需求大幅增长,开发者可以使用小规模的算力开发生成式AI应用,由此形成了一个不同的竞争赛道。根据IDC此前的调研,AI推理芯片在2020年已经占据中国数据中心50%以上的市场份额,并预计到2025年,这一比例将增至60.8%。另据英伟达2025财年第一季度财报电话会议记录纪要,在过去的四个季度中,预计超过40%的数据中心收入来自AI推理业务。可见,AI推理市场具有开阔前景。
不少创业公司也已入局AI推理市场。除了像硅基流动、Fireworks等通过开发AI推理软件栈加速性能优化的公司外,也有寻求通过新的架构设计专门推出AI推理芯片的公司正在挑战英伟达的地位,其中,这一领域备受关注公司是Cerebras Systems、Groq。
8月28日,Cerebras推出了其AI推理解决方案,能让Llama 3.1-8B达到1800 token/s的输出速度,大约是英伟达GPU推理速度的20倍,比Groq快约2.4倍,这主要在于Cerebras创新的AI芯片设计,允许整个模型存储在芯片上,从而解决GPU推理所无法避免的内存带宽瓶颈。这家成立于2016年的巨型晶圆级芯片制造公司展示了AI推理芯片领域创新的巨大潜力。
目前,Cerebras推出的旗舰产品CS-3是现存最快的AI计算机,它包含Cerebras Wafer Scale Engine(WSE-3)。WSE-2是迄今为止最大的芯片,包含4万亿个晶体管,面积是46225平方毫米。在AI工作负载中,大芯片能够更快地处理信息,从而在更短的时间内生成答案。关于Cerebras硬件的核心架构、纵向扩展和横向扩展方面的创新方法,OneFlow此前发布的文章《深挖Cerebras:世界上最大AI芯片的架构设计》有深入介绍。

Cerebras联创&CEO Andrew Feldman
近期,在机器学习播客Gradient Dissent中,主持人Lukas Biewald与Cerebras联创&CEO Andrew Feldman进行了一场对话,后者重点分享了对AI芯片领域的洞察。其中,他们探讨了Cerebras最新发布的开创性AI推理芯片及平台,分析了其晶圆级芯片如何在速度、准确性和成本效率方面达到了新的基准,Andrew还分享了使这一切成为可能的芯片架构创新的见解,并讨论了这对生产环境中AI负载的更广泛影响。
在他看来,我们还处在AI推理的“拨号上网时代”,当响应速度很慢时,很多极其有趣的应用无法实现。
创办Cerebras前,Andrew Feldman与他人共同创立并担任微服务器公司SeaMicro的CEO,后在2012年被AMD以3.57亿美元收购,此外,他还担任过Force10 Networks(被戴尔以8亿美元收购)、RiverStone Networks的营销和市场副总裁。他还拥有斯坦福大学的学士学位和MBA学位,有意思的是,他的专业是经济学/政治学,但后来在芯片领域干了30年。
(以下内容经授权后由OneFlow编译发布。转载请联系授权:https://www.youtube.com/watch?v=qNXebAQ6igs)
来源|Gradient Dissent
OneFlow编译
翻译|张雪聃
题图由SiliconCloud平台生成
1
比英伟达GPU快20倍的AI推理方案
Lukas:过去这一年发生了什么?看起来你们这一年过得很不寻常。
Andrew:我们走过了一趟非凡的历程。我们构建了数十个exaFLOPs的计算资源,建立了世界上最大的AI训练集群之一。我们训练的模型已经投入生产,解决了药物设计中的基本问题。我们有最好的阿拉伯语-英语聊天大模型。我们还发表了一些论文,进一步推进了电子仿真和地震分析领域

最低0.47元/天 解锁文章
932






