小米MiMo-V2-Flash评测:开源大模型的“速度之王“来了!

简介

小米开源了MoE模型MiMo-V2-Flash,总参数309B,激活参数15B,在编程基准测试中表现优异,SWE-Bench多语言得分71.7%,成为开源模型新SOTA。该模型采用混合注意力机制,速度快(150输出标记/秒),价格低廉。评测显示模型执行速度快但能力一般,文件体积大(313GB)难以本地部署,在SGLang中部署表现优异。


最近大模型世界打破消停

  • 谷歌发布了 Gemini 3 Flash,更轻,更便宜,N 个 Benchmark 上超越 Gemini 3 Pro
  • 小米开源了 MoE 模型 MiMo-V2-Flash,号称编程能力可以与 Claude Sonnet 4.5 一较高下

我看了一下小米这个 MiMo-V2-Flash,也试用了一下,但。。。

先看官方宣传

最突出的是:极致速度

** 🔥 亮点**: ⚙️ 模型参数:总参数 309B,激活参数 15B。
🏗️ 混合注意力:5:1 交错的 128 窗口 SWA + 全局 | 256K 上下文
⚔️ 在通用基准测试中与 DeepSeek-V3.2 相匹配,但延迟更低
🏆 SWE-Bench :73.4% | SWE-Bench 多语言:71.7% — 开源模型的新 SOTA
🚀 速度:150 输出标记/秒

资源:

🤗 模型权重:http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 博客文章:http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 技术报告:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI 工坊:http://aistudio.xiaomimimo.com

架构方面:

→ 使用混合注意力:滑动窗口 + 全局,比例为 5:1
→ 8 混合块(5 个滑动窗口注意力层 → 1 个全局)
→ 128 个标记滑动窗口
→ 256 位专家,每令牌 8 位活跃专家
→ 原生训练 32K, 扩展到支持 256K 上下文

从 Deepseek 离职之后加入小米的罗福莉也注册了推特,详细介绍了模型细节:

说实话我是看不懂,就是吃了一个瓜,有 Kimi 工程师锐评一波后被官方账号拉黑了,小米大模型团队格局属实有点小了

再附一个图,依然是突出:速度快、价格低

到底跑分成绩呢,N 个 Benchmark 上拳打 Kimi- K2,脚踢 DeepSeek-V3.2

体现 Code Agent 能力的 SWE-Bench Multilingual 更是遥遥领先

这个图更形象

但是我看了一些评测,总结就是:很快,但是能力一般

小米:你就说快不快吧

我也去测试了一下我经常使用测试模型阅读理解和编码能力的题目,结果如下

不如 Kimi K2 Thinking

阅读理解,没有识别出4次背影

最后是本地部署,我看了 313GB 的模型文件后直接放弃幻想了

所有推理代码现在都可在 SGLang 中找到 — 从发布之日起完全开源。

SGLang 部署模型在 H200(单节点)上的结果依然是:快得很
📊 预填充: ~50K 令牌/秒 | TTFT < 1 秒
📊 解码(3 层 MTP,16K 上下文):5K–15K 每秒标记 | 每请求 115–151 TPS 🔥

## 如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值