MLPerf最新发榜!这家AI芯片公司再获世界第一,大模型性能狂超A100

墨芯人工智能凭借稀疏计算技术在MLPerf中连续夺冠,其S40和S30计算卡在ResNet50和Bert模型上展现高性能,证实稀疏计算在解决大模型算力挑战中的潜力。ChatGPT带来的大模型趋势推动算力需求增长,墨芯的创新技术提供了解决方案。

「Python数据之道」分享

来源:机器之心

此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”。

ChatGPT 引爆大模型浪潮,也带来了算力挑战:当大模型进入大规模部署阶段,海量算力需求、推理加速等痛点,如何解决?

早在 2021 年,Google Research 和 OpenAI 的合作论文给出答案:《Sparse is Enough in Scaling Transformers》,证明稀疏计算能够为大模型带来数十倍加速。

4 月 6 日,全球权威 AI 基准评测 MLPerf Inference v3.0 公布的结果,再次佐证了:稀疏计算是大模型时代最不容忽视的算力 “潜力股”。

abd8037be6d57b11c716255acefda89a.png

来自中国的 AI 芯片企业 —— 墨芯人工智能,凭借软硬协同的稀疏计算技术,在 MLPerf 竞争最激烈的 ResNet50 模型上蝉联冠军,斩获开放任务分区 “双料冠军”:S40 计算卡以 127,375 FPS,获得单卡算力全球第一;S30 计算卡以 383,520 FPS 算力,获整机 4 卡算力全球第一。

此次是墨芯连续第二次问鼎 MLPerf,也是又一次 “12nm 战胜 4nm”:墨芯 AI 计算卡系列是基于首颗稀疏计算芯片12nm的AntoumⓇ,性能超越了4nm制程产品,展现出稀疏计算的强大优势。

3de5e5f770e99f920d93c19d63a04ac4.jpeg

作为业界公认最为权威、标准严格的AI基准测试,本届MLPerf参与热度再创新高,共收到来自英伟达、高通、英特尔等25家企业提交的6700多份测试结果,其中最显著的变化当属旨在鼓励创新的开放分区,提交结果数达上一届的三倍之多。种种迹象表明,ChatGPT引爆的大模型趋势将算力产业推向变革关口,众多厂商都在积极探索新的算力增长之道,通过软硬协同、稀疏计算等新方式,以满足大模型迫切的巨量算力需求。

刷新纪录,稀疏计算引领算力突破

继去年 MLPerf 2.1 夺魁以后,本次墨芯在 MLPerf 上再次刷新算力纪录,连获 Resnet-50 单卡、多卡的性能第一,并在 Bert 语言模型上实现性能提升。在MLPerf相同模型、数据集、精度条件下,墨芯计算卡产品性能超过英伟达 H100 和 A100。

刷新算力纪录:墨芯 S40 计算卡首次亮相 MLPerf,在数据中心的图像任务主流模型 ResNet-50 上夺得冠军,算力达 127,375 FPS。S40 计算卡性能达英伟达 H100、A100 的 1.4 倍和 2.9 倍。

3a73b27b73553149c1c4e699b1ebc75b.png

二度问鼎,优势持续扩大:这是墨芯第二次在 ResNet-50 模型上夺冠。墨芯 S40 计算卡比上届冠军 S30 计算卡的算力增幅达 33%,体现出持续的产品性能提升能力。与上一次 MLPerf 相比,墨芯产品相较 H100 和 A100 的算力优势分别扩大了 20% 和 90%。

54d1e9ee374fa5a32d42a5cd747a05f9.png

单机 4 卡第一,算力超 8 张 A100:墨芯 30 计算卡获得 ResNet-50 模型 “整机 4 卡” 冠军,算力 383,520 FPS,达英伟达 H100 的 4 卡成绩的 1.8 倍,并且超过英伟达 A100 的 8 卡成绩。

1dd3c9a0f29b4ec0d2105f94ceecebc8.png

在NLP模型BERT上,墨芯S40计算卡算力5,069 SPS达到英伟达提交的A100算力的2.7倍。

ec44024754b9db9664e8a412f06a82db.png

适配多服务器,发挥稳定:本次MLPerf中墨芯计算卡在多家厂商的服务器上的运行性能均表现出色、稳定,体现出产品的高成熟度与高兼容性,凸显出稀疏计算生态的广阔前景。

大幅加速推理,赋能 AIGC 等在线应用

随着 ChatGPT 等 AIGC 类应用的推广,加速推理速度、满足用户在线实时交互的需求,已成为大模型落地的一大痛点。在本次 MLPerf 中,墨芯 S30 与 S10 计算卡在离线(Offline)与在线(Server)两种模式下均表现优异,S30在ResNet-50和BERT的在线模式下算力分别达83,998(FPS)和3,009(SPS),展现出稀疏计算同时兼顾高吞吐、低延时的独特优势。

61205001f568f04117d5414adb1ff507.png

在推理加速方面,稀疏计算还具有更大的发挥空间。此前,墨芯人工智能创始人兼CEO王维在出席活动时透露:在墨芯内测中,在与GPT-3参数相当的开源LLM——1760亿参数的BLOOM上,4张墨芯S30计算卡在仅采用中低倍稀疏率的情况下,就能实现25 tokens/s的内容生成速度,超过8张A100。

b4428f0085a6f44b8a18402e6f551042.gif

实测:在 1760 亿参数的 BLOOM 上,4 张墨芯 S30 计算卡的内容生成速度达到 25 tokens/s,超过 8 张 A100

蝉联冠军的背后,是行业深度洞察与强大技术加持

本次 MLPerf 的参与热度再创新高,在高手云集的激烈竞争中,墨芯连续两届蝉联 MLPerf 冠军,表明了产品的优秀稳定性能与持续领先的地位。不仅如此,此次距离上次 MLPerf 仅过去半年有余,墨芯就推出了新的 AI 计算卡产品,并且性能有大幅提升,凸显出强大的团队实力、工程化能力等综合实力。

产品的持续领先和稳步发展,是建立在对行业的深刻洞察与远见之上的。在 ChatGPT 火爆之前,墨芯团队已经观察到大模型的必然趋势,并笃定:稀疏计算是大模型时代的最佳算力方案。

“Transformers引发的大模型浪潮,代表着整个AI的划时代巨变:在那之前是小模型时代,也就是AI 1.0,以解析式AI为主;到了AI 2.0大模型时代,大模型推动了生成式AI应用场景的爆发。”王维表示,从AI 1.0到AI 2.0,对算力的需求产生质变:“小模型时代,用场景数据训练小模型,研发和部署周期短,对算力的需求主要是通用性、易用性。到了大模型时代,大模型主要基于Transformer模型架构,算子层面逐渐固化,更追求计算速度和算力成本等。”

王维指出,大模型时代的算力痛点主要集中在两点:首先是大算力,大模型参数呈指数级增长,算力需求爆发,产生巨大的算力缺口;另一方面是加快推理速度,由于生成式 AI 基本都是在线应用,系统对于用户的需求要在毫秒内快速响应。

“微创新是大公司做的事情。大模型参数已经突破万亿、并且持续增大,微创新无法根本解决问题。创业公司要做就做有数量级突破的颠覆式创新。墨芯成立之初,我们就看到了:稀疏计算能够带来数量级的性能增长。因此我们一直笃定,做一家稀疏计算公司。” 王维表示。此次墨芯在 MLPerf 的连续夺冠,正是用实际证明了稀疏计算的巨大应用价值,以 “12nm 战胜 4nm” 的成绩打开新的算力增长空间。

墨芯的判断,与业界、学界对稀疏计算的看好是相一致的:Transformers 带来大模型浪潮后,稀疏计算相关研究活跃度显著提升。学界与业界都积极将稀疏计算作为大模型算力破解的重要方向,例如谷歌对 AI 的终极愿景 ——Pathways 架构采用稀疏计算原理:执行任务时仅稀疏激活模型的特定部分,计算真正有用的元素,这正是稀疏计算的本质。

8ac66c7fb30bb0eac241e1733b40b0bc.png

谷歌在《Introducing Pathways: A next-generation AI architecture》写道:“今天的模型是稠密和低效的,Pathways 将使它们变得稀疏和高效。” 英伟达也在其 Ampere 架构中首次支持 2 倍稀疏计算。墨芯则将稀疏计算从算法上升到软硬协同层面,2022 年发布首颗高稀疏倍率芯片 AntoumⓇ,能够支持 32 倍稀疏,大幅降低大模型所需的计算量。

4b287e93ba8eca0aaa28e4be7b530061.png

MLPerf 参与情况也侧面印证了业界共识:算力提升不能再纯靠硬件,必须通过软硬协同的方式。本届 MLPerf 中开放分区的提交结果再创新高,高通、英特尔等头部企业也提交多项结果,开放分区的算力方案呈现丰富的多样性。

不仅在 MLPerf 上表现出色,墨芯的产品商业落地上也进展迅速。据王维透露,墨芯 AI 计算卡发布数月就已实现量产,在互联网等领域成单落地。ChatGPT 走红后墨芯也收到大量客户问询,了解稀疏计算在大模型上的算力优势与巨大潜力。

ChatGPT 被比尔・盖茨评价为 “其意义不亚于互联网和 PC 的诞生”,被黄仁勋称为 AI 的 “iPhone 时刻”。每一项应用普及的前提,都是由基础设施提供坚实支撑。在大模型时代,稀疏计算无疑是最有前景的最佳算力方案,引领 AI 2.0 时代的算力进化,加速生成式 AI 等应用百花齐放的未来。

© THE END 

-------- End --------

推荐👇同名微信视频号

4cba1f01fd78e4ec0c2a583d8f80ecda.png

b2568b16802a675f9e3aef31dce6e2e7.jpeg
图解Pandas

图文00-内容框架介绍 | 图文01-数据结构介绍 | 图文02-创建数据对象 | 图文03-操作Excel文件 | 图文04-常见的数据访问 | 图文05-常见的数据运算 |  图文06-常见的数学计算 | 图文07-常见的数据统计 | 图文08-常见的数据筛选 |  图文09-常见的缺失值处理 | 图文10-数据合并操作 | 图文11-Groupby分组操作

a4499bd78d9a15b4a1ebb5a901831f33.jpeg 9f576323c49e45dc5a6299b79d92d585.jpeg
# 代码概述 该学生信息管理系统的代码由多个模块构成,每个模块承担不同的功能职责。以下将用**自然语言**对各个模块的功能、设计思路和实现逻辑进行详细说明。 --- ## 1. `Student` 类:学生数据的“模板” 这个类就像是一个“学生档案卡”的模板,用来创建每一个具体的学生对象。 - 当我们想记录一个学生的信息时(比如学号、姓名、成绩等),就通过这个类来生成一个“学生实例”。 - 每个学生都有相同的字段:`id`(学号)、`sname`(姓名)、`xb`(性别)、`age`(年龄)、`jg`(籍贯)、`bj`(班级)、`score`(成绩)。 - 它还提供了两个特殊方法: - `to_dict()`:把学生的信息转换成字典格式,方便保存到文件中; - `from_dict()`:从字典恢复成学生对象,便于从文件读取后重建数据; - 另外,`__str__()` 方法让我们在打印学生时能看到清晰的信息,而不是看不懂的内存地址。 📌 **打个比方**: `Student` 类就像是一张标准化的表格模板,每新建一个学生,就是填一张这样的表。 --- ## 2. `StudentManager` 类:整个系统的“大脑” 这是系统的核心部分,负责管理所有学生,并提供各种操作功能,相当于一个“教务管理员”。 ### (1)初始化与数据加载 - 程序一启动,它就会尝试从名为 `students.json` 的文件中读取之前保存的学生数据; - 如果找不到文件(第一次运行),就创建一个空列表开始使用; - 所有学生都存放在 `self.students` 这个列表里,后续所有操作都在这个列表上进行。 📌 **作用**:确保你昨天录入的学生,今天打开还能看到,不会丢失。 --- ### (2)添加学生(add_student) - 在添加新学生前,先检查有没有人用了相同的学号; - 如果有重复,就提醒“不能添加”,避免数据混乱; - 没问题的话,就把这个学生加入列表,并立刻保存到文件。 📌 **就像学校注册新生**:必须保证学号唯一,否则会搞混成绩和档案。 --- ### (3)删除学生(delete_student) - 根据输入的学号,在列表中一个个查找; - 找到后就把这个人从名单里移除,并告诉用户“删除成功”; - 如果没找到,就提示“查无此人”。 📌 **类似毕业或退学处理**:从在校生名单中移除对应人员。 --- ### (4)修改学生信息(update_student) - 先根据学号找到要改的学生; - 然后允许用户只改其中某些项(比如只改班级,其他不变); - 用户不输入的内容保持原样; - 修改完成后立即保存到文件。 📌 **就像更新个人信息**:你可以只改电话号码,而不影响姓名和年龄。 --- ### (5)查询功能(find_by_xxx / query_by_xxx) 提供了多种方式查找学生: - **按学号查**:精确匹配,最快最准; - **按姓名查**:支持模糊搜索,输入“李”能找出“李明”、“李华”; - **按性别查**:列出所有男生或女生; - **按籍贯查**:可以找出来自“湖南”的所有学生; - **按班级查**:查看某班的所有成员。 📌 **就像图书馆检索书一样**:可以根据作者、标题、类别等多种条件查找。 --- ### (6)统计平均成绩(average_score_by_class/gender) - 想知道“高一(1)班”的平均分?它可以自动计算; - 方法是:先把该班所有学生的成绩加起来,再除以人数; - 公式为:$\text{平均分} = \frac{\sum \text{每位学生的成绩}}{\text{学生总数}}$ - 同样也可以统计男生或女生的平均分。 📌 **老师常用功能**:用来分析哪个班整体表现更好。 --- ### (7)排序与排名(sort_by_score / top_10_in_class) - 可以把所有学生按成绩从高到低排列,一眼看出谁考得最好; - 还能专门查某个班级的前10名优秀学生; - 使用了智能排序算法,自动完成高低分排序。 📌 **考试后发榜场景**:公布成绩排名,激励学习积极性。 --- ### (8)数据永久保存(save_to_file / load_from_file) - 所有学生信息都会被转换成 JSON 格式(一种通用的数据存储格式)存入电脑文件; - 下次打开程序时,自动读取这个文件,还原上次的状态; - 中文也能正常显示(设置 `encoding='utf-8'` 和 `ensure_ascii=False`); - 即使程序关闭,数据也不会丢失。 📌 **就像写日记本**:每天写完收好,第二天接着看。 --- ## 3. 主程序(main 函数):用户的“操作界面” 这部分是你看到的菜单和交互过程,相当于系统的“前台服务窗口”。 - 显示一个数字菜单,例如: ``` 1. 添加学生 2. 删除学生 ... 0. 退出 ``` - 用户输入数字选择功能; - 系统根据选择调用 `StudentManager` 中对应的方法; - 操作完成后回到主菜单,继续工作; - 直到用户输入 `0` 才退出。 📌 **就像 ATM 机的操作流程**:一步步引导你完成任务。 --- ## 4. 整体协作流程说明 1. **启动程序** → 自动加载历史数据; 2. **进入菜单** → 用户选择要做的事; 3. **执行操作** → 调用 `StudentManager` 处理; 4. **访问数据** → 通过 `Student` 对象读写信息; 5. **保存结果** → 所有变更实时写入文件; 6. **循环运行** → 直到用户主动退出。 --- ## 总结性比喻 把这个系统比作一所学校的**电子教务系统**: | 模块 | 对应现实角色 | |------|---------------| | `Student` 类 | 学生档案卡片 | | `StudentManager` 类 | 教务主任 | | `main()` 函数 | 办公室接待员(面对老师或管理员) | | JSON 文件 | 存放档案的柜子(永久保存) | 整个系统结构清晰、功能完整、易于使用,能够高效地管理和分析学生信息。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值