Cerebras：挑战英伟达，全球最快AI推理芯片的“魔法”

原创

已于 2024-10-17 14:56:10 修改 · 4.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #Cerebras #AI芯片 #英伟达 #GPU

于 2024-09-09 08:07:24 首次发布

大模型的出现使得AI芯片的需求暴增，但在这个市场，英伟达占据了近90%份额，其市值也曾超过3万亿美元。

为什么英伟达能一家独大？尽管芯片市场上还有AMD等厂商，但在需要大规模算力集群的大模型预训练阶段，英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台，这对其他芯片厂商来说存在非常高的门槛，当然，英伟达GPU软件栈在加速方面也具有优势。

随着大模型推理需求大幅增长，开发者可以使用小规模的算力开发生成式AI应用，由此形成了一个不同的竞争赛道。根据IDC此前的调研，AI推理芯片在2020年已经占据中国数据中心50%以上的市场份额，并预计到2025年，这一比例将增至60.8%。另据英伟达2025财年第一季度财报电话会议记录纪要，在过去的四个季度中，预计超过40%的数据中心收入来自AI推理业务。可见，AI推理市场具有开阔前景。

不少创业公司也已入局AI推理市场。除了像硅基流动、Fireworks等通过开发AI推理软件栈加速性能优化的公司外，也有寻求通过新的架构设计专门推出AI推理芯片的公司正在挑战英伟达的地位，其中，这一领域备受关注公司是Cerebras Systems、Groq。

8月28日，Cerebras推出了其AI推理解决方案，能让Llama 3.1-8B达到1800 token/s的输出速度，大约是英伟达GPU推理速度的20倍，比Groq快约2.4倍，这主要在于Cerebras创新的AI芯片设计，允许整个模型存储在芯片上，从而解决GPU推理所无法避免的内存带宽瓶颈。这家成立于2016年的巨型晶圆级芯片制造公司展示了AI推理芯片领域创新的巨大潜力。

目前，Cerebras推出的旗舰产品CS-3是现存最快的AI计算机，它包含Cerebras Wafer Scale Engine（WSE-3）。WSE-2是迄今为止最大的芯片，包含4万亿个晶体管，面积是46225平方毫米。在AI工作负载中，大芯片能够更快地处理信息，从而在更短的时间内生成答案。关于Cerebras硬件的核心架构、纵向扩展和横向扩展方面的创新方法，OneFlow此前发布的文章《深挖Cerebras：世界上最大AI芯片的架构设计》有深入介绍。

Cerebras联创&CEO Andrew Feldman

近期，在机器学习播客Gradient Dissent中，主持人Lukas Biewald与Cerebras联创&CEO Andrew Feldman进行了一场对话，后者重点分享了对AI芯片领域的洞察。其中，他们探讨了Cerebras最新发布的开创性AI推理芯片及平台，分析了其晶圆级芯片如何在速度、准确性和成本效率方面达到了新的基准，Andrew还分享了使这一切成为可能的芯片架构创新的见解，并讨论了这对生产环境中AI负载的更广泛影响。

在他看来，我们还处在AI推理的“拨号上网时代”，当响应速度很慢时，很多极其有趣的应用无法实现。

创办Cerebras前，Andrew Feldman与他人共同创立并担任微服务器公司SeaMicro的CEO，后在2012年被AMD以3.57亿美元收购，此外，他还担任过Force10 Networks（被戴尔以8亿美元收购）、RiverStone Networks的营销和市场副总裁。他还拥有斯坦福大学的学士学位和MBA学位，有意思的是，他的专业是经济学/政治学，但后来在芯片领域干了30年。

（以下内容经授权后由OneFlow编译发布。转载请联系授权：https://www.youtube.com/watch?v=qNXebAQ6igs）

来源｜Gradient Dissent

OneFlow编译

翻译｜张雪聃
题图由SiliconCloud平台生成