MiMo-Embodied是小米公司开发的全球首个开源跨具身 (X-Embodied) 基础模型,成功融合自动驾驶 (Autonomous Driving) 与具身智能 (Embodied AI) 两大领域,在单一模型中同时支持两类任务的卓越表现。
- 发布时间:2025 年 11 月 21 日正式发布并全面开源
- 开源平台:Hugging Face 和 GitHub,权重与代码完全开放
- 核心突破:打破室内操作与户外驾驶的领域壁垒,实现知识双向迁移与协同增强
- 性能表现:在 29 项基准测试中创 SOTA 记录 (具身智能 17 项 + 自动驾驶 12 项),大幅超越现有开源 / 闭源 / 专用模型
采用 "视觉编码 + 跨模态投影 + 语言推理" 的三段式架构,确保多模态融合与高效推理:
1. 视觉编码器 (Vision Encoder)
- 基于 ViT (视觉 Transformer) 构建,支持单图 / 多图 / 视频输入
- 创新点:处理视频时采用 3D 卷积技术 (非简单切分),更好捕捉时空特征
- 输入分辨率灵活,适配高维视觉信息提取
2. 跨模态投影器 (Cross-modal Projector)
- 通过多层感知机 (MLP) 将视觉特征映射至 LLM 潜空间
- 实现视觉 - 语言特征对齐,增强跨模态理解能力
3. LLM 骨干
- 继承 MiMo-VL 语言模型架构,具备强大语言理解与生成能力
- 作为模型决策与推理的 "大脑",整合多模态信息输出精准指令
多模态融合机制:
- 采用注意力机制实现视觉 - 语言信息交互,捕捉长程依赖
- 支持多视角感知,适应自动驾驶中的多摄像头输入与具身智能的多角度观察
感知 - 决策链路:
- 环境感知→空间理解→可供性推理→任务规划→执行决策
- 全链路优化,确保从感知到行动的端到端可靠性
训练流程:"具身 / 自驾能力学习→CoT 推理增强→RL 精细强化"
1. 链式思维 (CoT) 增强
- 训练模型按 "观察→分析→候选→理由→结论" 的顺序组织推理过程
- 强制模型 "说清楚" 决策逻辑,提高输出可解释性和可靠性
- 显著提升复杂任务中的推理准确性和连贯性
2. 强化学习 (RL) 精细调整
- 采用 GRPO (广义策略优化) 算法
- 重点优化空间定位、选择题推理与复杂指令执行精度
- 增强模型在真实环境中的部署可靠性
3. 跨域知识迁移机制
- 设计特殊训练策略促进两大领域知识互相增强
- 验证室内交互能力与道路决策能力的双向赋能效果
- 实现 "1+1>2" 的跨域协同效应
具身智能三大核心任务:
- 可供性推理:理解物体用途与交互可能性
- 任务规划:生成复杂任务执行步骤序列
- 空间理解:构建 3D 环境表征与导航能力
自动驾驶三大关键任务:
- 环境感知:识别道路、障碍物、交通信号等
- 状态预测:预测车辆及周围物体未来状态
- 驾驶规划:生成安全高效的行驶轨迹
小米计划从 2026 年 Q1 起通过 OTA 更新将 MiMo-Embodied 应用于:
- 智能扫地机器人:复杂家庭环境中的自主导航与任务执行
- 工厂 AGV 系统:柔性制造中的精准物料搬运
- SU7 智能驾驶:高级辅助驾驶与自动驾驶功能增强
同时开放模型 API,为智能家居、移动出行和智能制造领域开发者提供跨域智能基础
在 17 项具身智能基准测试中全部达到SOTA 水平,尤其在:
- 工具使用预测:准确率提升 12-15%
- 长期任务规划:完成率提高 20%+
- 复杂空间导航:路径效率提升 25%
在 12 项自动驾驶基准测试中全部创新纪录,特别是:
- 障碍物检测:mAP 提升 8-10%
- 轨迹预测:误差减少 15-18%
- 决策规划:车道保持准确率达 99.2%
- 在常见视觉 - 语言理解任务中表现优异,展现强大的多模态融合能力
- 模型具备良好的零样本迁移能力,能快速适应未见过的场景变体
- 单一套参数同时满足家庭环境和城市道路的复杂决策需求
全球首创跨具身架构:首个成功融合自动驾驶与具身智能的开源基础模型,打破领域壁垒
双向协同赋能机制:实现室内交互与道路决策能力的相互增强,验证跨域正迁移效应
统一多模态理解框架:单一模型同时处理视觉、语言、空间、时间等多维度信息,支持全场景智能
渐进式四阶段训练策略:系统性解决跨领域模型训练难题,确保能力稳健提升
高效推理与执行链路:从感知到决策的全链路优化,大幅提升模型在真实环境中的部署可靠性
MiMo-Embodied 代表了具身 AI 与自动驾驶领域融合发展的重大突破,为构建 "一个模型、多种场景" 的通用智能体奠定了坚实基础。其技术创新不仅解决了跨域知识迁移难题,还为 AI 模型向更复杂、更灵活的智能系统演进指明了方向。
随着小米将该模型应用于智能硬件生态,以及开源社区的持续贡献,MiMo-Embodied 有望成为连接数字世界与物理世界的关键技术桥梁,推动 AI 从 "感知智能" 向 "决策智能" 和 "执行智能" 的全面升级。
注:本总结基于 2025 年 11 月 20 日发布的 MiMo-Embodied 技术报告 (arXiv:2511.16518) 及官方开源资料整理,部分技术细节可能随模型迭代而调整。