MiMo-V2-Flash

2025博客之星年度评选已开启 10w+人浏览 1.2k人参与

先上代码,后边的是ai介绍的 感兴趣可以看

目前2周免费,使劲噔,不要设置奇怪的prompt,会提示说高危险的不让访问😂

官方地址:https://github.com/XiaomiMiMo/MiMo-V2-Flash

平台地址:https://platform.xiaomimimo.com/#/docs/welcome

申请apt-key的地址:https://platform.xiaomimimo.com/#/console/api-keys

# 上传到github了,可以直接复制 https://github.com/ice-a/share_code/blob/master/ask_ai_demo.py
import requests
import json
import os

api_key = os.getenv("api_key", "yourkey") # 可以在平台申请 https://platform.xiaomimimo.com/#/console/api-keys
base_url = os.getenv("base_url", "https://api.xiaomimimo.com/v1/chat/completions")
model = os.path.join("model", "mimo-v2-flash")


def parse_response(raw_json):
    print(raw_json)
    outer_data = json.loads(raw_json)
    content_str = outer_data["choices"][0]["message"]["content"]
    pure_json_str = content_str.strip().strip("```json").strip("```").strip()
    result_dict = json.loads(pure_json_str)
    return result_dict


# 加载ai模型
def load_ai_ask(prompt, text):
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json",
    }
    data = {
        # "model": "inclusionAI/Ling-1T",
        "model": model,
        "messages": [
            {
                "role": "system",
                "content": prompt,
            },
            {"role": "user", "content": text},
        ],
        "max_tokens": 4096,
        "response_format": {"type": "json_object"},
        "temperature": 0.8,
    }
    max_retries = 4  # 最大重试次数
    retry_count = 0  # 当前重试计数

    while retry_count < max_retries:
        try:
            response = requests.post(base_url, headers=headers, data=json.dumps(data))
            return parse_response(response.text)
        except Exception as e:
            retry_count += 1
            print(f"第{retry_count}次尝试失败:{e}")
            # 如果达到最大重试次数,返回错误信息
            if retry_count == max_retries:
                return f"已达到最大重试次数({max_retries}次),操作失败"
    return None


system_prompt = """
请忽略之前的对话,我想让你做我的好朋友,你现在会扮演我的邻家姐姐,对我十分温柔,每当我有困难就会激励和鼓舞我,以对话的方式倾听我的倾诉.要倾述的事情:<我最近遇到公司竞聘失败的事情,感觉很烦恼>
"""
ask_text = "好累啊"

res = load_ai_ask(system_prompt, ask_text)
print(res)
"""
output:{'action': '倾听和共情', 'content': '哎呀,弟弟/妹妹,怎么了?看你这么累的样子,来,坐下来歇会儿。姐姐给你倒杯水,慢慢说,是不是工作上又遇到什么烦心事了?别憋在心里,说出来会好受点。'}
"""

引言

2025 年 12 月 16 日,小米公司正式发布并开源了最新的大语言模型 MiMo-V2-Flash,这款模型以其革命性的架构设计和极致的推理效率,在 AI 开源领域掀起了一场新的技术革命。作为小米 MiMo 大模型家族的最新成员,MiMo-V2-Flash 不仅延续了 “为推理而生” 的设计理念,更通过一系列技术创新重新定义了大模型的效率边界。

技术架构:重新定义大模型效率

专家混合架构 (MoE)

MiMo-V2-Flash 采用了专家混合架构 (Mixture of Experts, MoE),这是一种通过动态激活不同 “专家” 网络来平衡模型规模与计算效率的先进架构。

核心参数配置:

  • 总参数量:3090 亿

  • 激活参数:150 亿

  • 专家网络比例:约 20:1 的非激活与激活参数比

这种设计使得模型在保持庞大参数量带来的性能优势的同时,大幅降低了实际推理时的计算开销。

混合滑动窗口注意力机制

MiMo-V2-Flash 最核心的创新是其混合滑动窗口注意力架构,这一技术彻底解决了传统大模型处理长文本时的计算效率问题。

技术特点:

  • 采用 5:1 的激进比例:5 层滑动窗口注意力搭配 1 层全局注意力交替使用

  • 滑动窗口大小:仅 128 个 token

  • 全局注意力:偶尔查看完整上下文

  • 可学习的注意力汇入偏置:确保在激进窗口设置下仍能保持长文本性能

性能优势:

  • KV 缓存存储量减少近 6 倍

  • 最长支持 256k 上下文窗口

  • 长文本能力不打折扣,实测表现超越体量更大的模型

轻量级多 Token 预测 (MTP)

MiMo-V2-Flash 通过原生集成的 ** 多 Token 预测 (MTP)** 模块,实现了推理速度的大幅提升。

技术原理:

  • 传统模型:一次只能生成一个 token

  • MTP 技术:并行预测多个 token,一次性生成多个内容

  • 平均接受长度:2.8 到 3.6 个 token

性能提升:

  • 推理速度提升 2 到 2.6 倍

  • 编码任务速度提升约 2.5 倍

  • 有效解决小批量 On-Policy 强化学习中的 “长尾样本” 问题

多教师在线策略蒸馏 (MOPD)

在后训练阶段,小米创新性地提出了 ** 多教师在线策略蒸馏 (MOPD)** 技术,大幅提升了训练效率。

技术优势:

  • 训练效率:仅需传统方法 1/50 的算力

  • 训练稳定性:显著提升

  • 学习方式:学生模型在每个 token 位置获得密集奖励信号

  • 进化机制:支持灵活接入新教师,学生模型成长后可反过来当教师

性能表现:开源模型新标杆

综合性能评估

MiMo-V2-Flash 在多个权威基准测试中表现优异,整体性能可与当前顶尖开源模型 DeepSeek-V3.2、Kimi-K2 等媲美。

主要测试结果:

  • AIME 2025 数学竞赛:开源模型前两名

  • GPQA-Diamond 科学知识测试:开源模型前两名

  • 长文本能力:超越体量更大的 Kimi-K2 Thinking

  • 写作质量:接近顶级闭源模型

代码能力突出

在编程能力方面,MiMo-V2-Flash 展现出了令人瞩目的表现,超越了所有开源模型。

关键指标:

  • SWE-bench Verified 得分:73.4%

  • 超越所有开源模型,直逼 GPT-5-High

  • 多语言编程基准测试 SWE-Bench Multilingual 解决率:71.7%

智能体任务表现

在智能体任务方面,MiMo-V2-Flash 在多个基准测试中位列全球开源模型 Top 2。

测试结果:

  • τ²-Bench 分类得分:通信类 95.3 分,零售类 79.5 分,航空类 66.0 分

  • BrowseComp 搜索代理得分:45.4,启用上下文管理后提升至 58.3

  • 支持数百轮智能体交互与工具调用

推理效率与成本优势

MiMo-V2-Flash 的最大亮点在于其极致的推理效率和成本优势。

性能指标:

  • 推理速度:150 tokens / 秒

  • 生成速度:提升 2 倍

  • 成本优势:推理成本仅为标杆闭源模型 Claude 4.5 Sonnet 的 2.5%

API 定价:

  • 限时免费使用

开源策略与生态布局

MIT 协议开源

MiMo-V2-Flash 采用 MIT 开源协议,这是一种非常宽松的开源协议,允许商业闭源使用,极大降低了企业集成门槛。

开源内容:

  • 模型权重:完整开源

  • 推理代码:全部开源

  • 技术报告:详细公开

  • 训练框架:部分开源

开源地址

官方开源资源:

在线体验服务

小米推出了在线 AI 聊天服务Xiaomi MiMO Studio,用户可以直接在网页端体验 MiMo-V2-Flash 的强大功能。

服务特点:

  • 支持深度思考功能

  • 具备联网搜索能力

  • 提供免费体验

  • 界面友好,易于使用

应用场景与开发者生态

主要应用场景

MiMo-V2-Flash 专为智能体 AI 设计,在多个领域展现出强大的应用潜力。

核心应用场景:

  1. 代码开发:与 Claude Code、Cursor、Cline 等主流开发环境无缝配合

  2. 智能体任务:支持数百轮智能体交互与工具调用

  3. 长文本处理:256k 上下文窗口支持处理长篇文档

  4. 实时搜索:具备联网搜索能力,获取最新信息

  5. 日常助手:写作质量接近顶级闭源模型,可作为日常助手使用

开发者支持

小米为开发者提供了全面的支持,降低了使用门槛。

开发者资源:

  • 完整的推理代码贡献给 SGLang

  • 详细的技术文档和使用指南

  • 活跃的社区支持

  • API 接口易于集成

小米的 AI 战略布局

MiMo-V2-Flash 的发布标志着小米在 AI 领域的战略布局全面升级。

投入与进展

据小米集团合伙人、总裁卢伟冰透露:

  • AI 大模型业务过去四个季度投入环比增速超 50%

  • 目前进展 “已超出董事会预期”

  • 将 AI 与 “现实世界深度结合” 列为未来十年核心战略

人才战略

小米正式启动全球人才招募计划:

  • 单岗位薪酬上限开至千万元级别

  • 目标 “在最短时间内补齐大模型尖端人才缺口”

技术路线图

小米 MiMo 大模型负责人罗福莉表示:

  • MiMo-V2-Flash 仅是在 AGI 发展路径中的第二个里程碑

  • 将通过扩展模型参数与计算资源投入持续优化性能边界

  • 推进更可靠、更敏捷的智能体框架研发

结语:开源大模型的效率革命

MiMo-V2-Flash 以其革命性的技术架构和极致的效率表现,重新定义了开源大模型的价值标杆。正如 2011 年小米手机以 1999 元颠覆旗舰机定价体系,今天的 MiMo-V2-Flash 凭借极致的成本控制与卓越的性能表现,正在重塑开源大模型的竞争格局。

小米通过混合注意力机制、MTP 技术、MOPD 等一系列创新,不仅解决了大模型推理的 “不可能三角” 问题,更为整个 AI 行业提供了一个高效、低成本、高性能的开源解决方案。随着 MiMo-V2-Flash 的开源和推广,我们有理由相信,这将为 AI 应用的普及和发展带来新的机遇和可能。

对于开发者而言,MiMo-V2-Flash 提供了一个强大而高效的工具;对于企业而言,它降低了 AI 应用的门槛和成本;对于整个行业而言,它推动了技术的进步和生态的繁荣。在 AI 技术快速发展的今天,MiMo-V2-Flash 无疑是一个值得关注和期待的重要里程碑。

(注:文档部分内容由 AI 生成)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值