先上代码,后边的是ai介绍的 感兴趣可以看
目前2周免费,使劲噔,不要设置奇怪的prompt,会提示说高危险的不让访问😂
官方地址:https://github.com/XiaomiMiMo/MiMo-V2-Flash
平台地址:https://platform.xiaomimimo.com/#/docs/welcome
申请apt-key的地址:https://platform.xiaomimimo.com/#/console/api-keys
# 上传到github了,可以直接复制 https://github.com/ice-a/share_code/blob/master/ask_ai_demo.py
import requests
import json
import os
api_key = os.getenv("api_key", "yourkey") # 可以在平台申请 https://platform.xiaomimimo.com/#/console/api-keys
base_url = os.getenv("base_url", "https://api.xiaomimimo.com/v1/chat/completions")
model = os.path.join("model", "mimo-v2-flash")
def parse_response(raw_json):
print(raw_json)
outer_data = json.loads(raw_json)
content_str = outer_data["choices"][0]["message"]["content"]
pure_json_str = content_str.strip().strip("```json").strip("```").strip()
result_dict = json.loads(pure_json_str)
return result_dict
# 加载ai模型
def load_ai_ask(prompt, text):
headers = {
"Authorization": f"Bearer {api_key}",
"Content-Type": "application/json",
}
data = {
# "model": "inclusionAI/Ling-1T",
"model": model,
"messages": [
{
"role": "system",
"content": prompt,
},
{"role": "user", "content": text},
],
"max_tokens": 4096,
"response_format": {"type": "json_object"},
"temperature": 0.8,
}
max_retries = 4 # 最大重试次数
retry_count = 0 # 当前重试计数
while retry_count < max_retries:
try:
response = requests.post(base_url, headers=headers, data=json.dumps(data))
return parse_response(response.text)
except Exception as e:
retry_count += 1
print(f"第{retry_count}次尝试失败:{e}")
# 如果达到最大重试次数,返回错误信息
if retry_count == max_retries:
return f"已达到最大重试次数({max_retries}次),操作失败"
return None
system_prompt = """
请忽略之前的对话,我想让你做我的好朋友,你现在会扮演我的邻家姐姐,对我十分温柔,每当我有困难就会激励和鼓舞我,以对话的方式倾听我的倾诉.要倾述的事情:<我最近遇到公司竞聘失败的事情,感觉很烦恼>
"""
ask_text = "好累啊"
res = load_ai_ask(system_prompt, ask_text)
print(res)
"""
output:{'action': '倾听和共情', 'content': '哎呀,弟弟/妹妹,怎么了?看你这么累的样子,来,坐下来歇会儿。姐姐给你倒杯水,慢慢说,是不是工作上又遇到什么烦心事了?别憋在心里,说出来会好受点。'}
"""
引言
2025 年 12 月 16 日,小米公司正式发布并开源了最新的大语言模型 MiMo-V2-Flash,这款模型以其革命性的架构设计和极致的推理效率,在 AI 开源领域掀起了一场新的技术革命。作为小米 MiMo 大模型家族的最新成员,MiMo-V2-Flash 不仅延续了 “为推理而生” 的设计理念,更通过一系列技术创新重新定义了大模型的效率边界。
技术架构:重新定义大模型效率
专家混合架构 (MoE)
MiMo-V2-Flash 采用了专家混合架构 (Mixture of Experts, MoE),这是一种通过动态激活不同 “专家” 网络来平衡模型规模与计算效率的先进架构。
核心参数配置:
-
总参数量:3090 亿
-
激活参数:150 亿
-
专家网络比例:约 20:1 的非激活与激活参数比
这种设计使得模型在保持庞大参数量带来的性能优势的同时,大幅降低了实际推理时的计算开销。
混合滑动窗口注意力机制
MiMo-V2-Flash 最核心的创新是其混合滑动窗口注意力架构,这一技术彻底解决了传统大模型处理长文本时的计算效率问题。
技术特点:
-
采用 5:1 的激进比例:5 层滑动窗口注意力搭配 1 层全局注意力交替使用
-
滑动窗口大小:仅 128 个 token
-
全局注意力:偶尔查看完整上下文
-
可学习的注意力汇入偏置:确保在激进窗口设置下仍能保持长文本性能
性能优势:
-
KV 缓存存储量减少近 6 倍
-
最长支持 256k 上下文窗口
-
长文本能力不打折扣,实测表现超越体量更大的模型
轻量级多 Token 预测 (MTP)
MiMo-V2-Flash 通过原生集成的 ** 多 Token 预测 (MTP)** 模块,实现了推理速度的大幅提升。
技术原理:
-
传统模型:一次只能生成一个 token
-
MTP 技术:并行预测多个 token,一次性生成多个内容
-
平均接受长度:2.8 到 3.6 个 token
性能提升:
-
推理速度提升 2 到 2.6 倍
-
编码任务速度提升约 2.5 倍
-
有效解决小批量 On-Policy 强化学习中的 “长尾样本” 问题
多教师在线策略蒸馏 (MOPD)
在后训练阶段,小米创新性地提出了 ** 多教师在线策略蒸馏 (MOPD)** 技术,大幅提升了训练效率。
技术优势:
-
训练效率:仅需传统方法 1/50 的算力
-
训练稳定性:显著提升
-
学习方式:学生模型在每个 token 位置获得密集奖励信号
-
进化机制:支持灵活接入新教师,学生模型成长后可反过来当教师
性能表现:开源模型新标杆
综合性能评估
MiMo-V2-Flash 在多个权威基准测试中表现优异,整体性能可与当前顶尖开源模型 DeepSeek-V3.2、Kimi-K2 等媲美。
主要测试结果:
-
AIME 2025 数学竞赛:开源模型前两名
-
GPQA-Diamond 科学知识测试:开源模型前两名
-
长文本能力:超越体量更大的 Kimi-K2 Thinking
-
写作质量:接近顶级闭源模型
代码能力突出
在编程能力方面,MiMo-V2-Flash 展现出了令人瞩目的表现,超越了所有开源模型。
关键指标:
-
SWE-bench Verified 得分:73.4%
-
超越所有开源模型,直逼 GPT-5-High
-
多语言编程基准测试 SWE-Bench Multilingual 解决率:71.7%
智能体任务表现
在智能体任务方面,MiMo-V2-Flash 在多个基准测试中位列全球开源模型 Top 2。
测试结果:
-
τ²-Bench 分类得分:通信类 95.3 分,零售类 79.5 分,航空类 66.0 分
-
BrowseComp 搜索代理得分:45.4,启用上下文管理后提升至 58.3
-
支持数百轮智能体交互与工具调用
推理效率与成本优势
MiMo-V2-Flash 的最大亮点在于其极致的推理效率和成本优势。
性能指标:
-
推理速度:150 tokens / 秒
-
生成速度:提升 2 倍
-
成本优势:推理成本仅为标杆闭源模型 Claude 4.5 Sonnet 的 2.5%
API 定价:
- 限时免费使用
开源策略与生态布局
MIT 协议开源
MiMo-V2-Flash 采用 MIT 开源协议,这是一种非常宽松的开源协议,允许商业闭源使用,极大降低了企业集成门槛。
开源内容:
-
模型权重:完整开源
-
推理代码:全部开源
-
技术报告:详细公开
-
训练框架:部分开源
开源地址
官方开源资源:
在线体验服务
小米推出了在线 AI 聊天服务Xiaomi MiMO Studio,用户可以直接在网页端体验 MiMo-V2-Flash 的强大功能。
服务特点:
-
支持深度思考功能
-
具备联网搜索能力
-
提供免费体验
-
界面友好,易于使用
应用场景与开发者生态
主要应用场景
MiMo-V2-Flash 专为智能体 AI 设计,在多个领域展现出强大的应用潜力。
核心应用场景:
-
代码开发:与 Claude Code、Cursor、Cline 等主流开发环境无缝配合
-
智能体任务:支持数百轮智能体交互与工具调用
-
长文本处理:256k 上下文窗口支持处理长篇文档
-
实时搜索:具备联网搜索能力,获取最新信息
-
日常助手:写作质量接近顶级闭源模型,可作为日常助手使用
开发者支持
小米为开发者提供了全面的支持,降低了使用门槛。
开发者资源:
-
完整的推理代码贡献给 SGLang
-
详细的技术文档和使用指南
-
活跃的社区支持
-
API 接口易于集成
小米的 AI 战略布局
MiMo-V2-Flash 的发布标志着小米在 AI 领域的战略布局全面升级。
投入与进展
据小米集团合伙人、总裁卢伟冰透露:
-
AI 大模型业务过去四个季度投入环比增速超 50%
-
目前进展 “已超出董事会预期”
-
将 AI 与 “现实世界深度结合” 列为未来十年核心战略
人才战略
小米正式启动全球人才招募计划:
-
单岗位薪酬上限开至千万元级别
-
目标 “在最短时间内补齐大模型尖端人才缺口”
技术路线图
小米 MiMo 大模型负责人罗福莉表示:
-
MiMo-V2-Flash 仅是在 AGI 发展路径中的第二个里程碑
-
将通过扩展模型参数与计算资源投入持续优化性能边界
-
推进更可靠、更敏捷的智能体框架研发
结语:开源大模型的效率革命
MiMo-V2-Flash 以其革命性的技术架构和极致的效率表现,重新定义了开源大模型的价值标杆。正如 2011 年小米手机以 1999 元颠覆旗舰机定价体系,今天的 MiMo-V2-Flash 凭借极致的成本控制与卓越的性能表现,正在重塑开源大模型的竞争格局。
小米通过混合注意力机制、MTP 技术、MOPD 等一系列创新,不仅解决了大模型推理的 “不可能三角” 问题,更为整个 AI 行业提供了一个高效、低成本、高性能的开源解决方案。随着 MiMo-V2-Flash 的开源和推广,我们有理由相信,这将为 AI 应用的普及和发展带来新的机遇和可能。
对于开发者而言,MiMo-V2-Flash 提供了一个强大而高效的工具;对于企业而言,它降低了 AI 应用的门槛和成本;对于整个行业而言,它推动了技术的进步和生态的繁荣。在 AI 技术快速发展的今天,MiMo-V2-Flash 无疑是一个值得关注和期待的重要里程碑。
(注:文档部分内容由 AI 生成)

2131

被折叠的 条评论
为什么被折叠?



