MiMo-VL:打造紧凑型高效视觉语言模型

MiMo-VL:打造紧凑型高效视觉语言模型

MiMo-VL MiMo-VL 项目地址: https://gitcode.com/gh_mirrors/mi/MiMo-VL

项目介绍

MiMo-VL 是小米公司推出的一款强大的紧凑型视觉语言模型(VLM),其核心模型 MiMo-VL-7B 拥有卓越的多模态推理能力。该项目旨在通过创新的训练方法和技术,为视觉语言理解领域带来突破性的进展。MiMo-VL-7B 模型融合了精细的视觉细节保持、高效的跨模态对齐和专为复杂推理任务优化的语言模型,为多模态任务提供了一种高效、可靠的解决方案。

项目技术分析

MiMo-VL-7B 的开发包括两个连续的训练过程:四阶段的预训练阶段和随后的后训练阶段。在预训练阶段,模型经历了投影器预热、视觉语言对齐、通用多模态预训练和长上下文监督微调(SFT),形成了 MiMo-VL-7B-SFT 模型。在后训练阶段,引入了混合策略强化学习(MORL),这是一种将多种奖励信号(包括感知精度、视觉定位精确度、逻辑推理能力和人类/人工智能偏好)无缝集成的创新框架,进而得到 MiMo-VL-7B-RL 模型。

项目技术应用场景

MiMo-VL-7B 模型在多个领域展现了出色的性能,包括但不限于:

  • 视觉语言理解:在通用视觉语言理解任务中,MiMo-VL-7B 达到了开源模型中的最高水平。
  • 多模态推理:在多模态推理任务中,无论是 SFT 模型还是 RL 模型,都显著超越了其他开源基线。
  • 图形用户界面(GUI)任务:MiMo-VL-7B-RL 拥有卓越的 GUI 理解和定位能力,作为一款通用视觉语言模型,其在 GUI 任务上的表现甚至超过了专门针对 GUI 优化的模型。
  • ** Elo 评分**:在内部评估数据集和 GPT-4o 判断的基础上,MiMo-VL-7B-RL 在所有评估的开源视觉语言模型中获得了最高的 Elo 评分,位居第一。

项目特点

1. 高质量推理数据的重要性

项目团队发现,将高质量、广泛覆盖的推理数据融入预训练阶段对于提升模型性能至关重要。为此,他们通过识别多样化查询,使用大型推理模型重新生成具有长 CoT 的响应,并应用拒绝采样确保数据质量,直接将大量合成推理数据整合到预训练的后期阶段,实现了性能的持续提升。

2. 混合策略强化学习的挑战

虽然混合策略强化学习进一步提升了模型性能,但实现稳定的同时提升各个能力(如推理、感知、定位和人类偏好对齐)仍然是一个挑战。项目团队在多种能力上应用了 RL,跨模态包括文本、图像和视频,虽然这种混合训练方法进一步挖掘了模型的潜力,但数据域之间的干扰仍然存在。


在当前多模态技术快速发展的背景下,MiMo-VL-7B 的出现无疑为视觉语言模型领域带来了新的视角和可能性。通过其独特的训练方法和高效的模型结构,MiMo-VL-7B 展现了在多种任务中的卓越性能,为研究人员和开发者提供了一个强有力的工具。相信随着未来的进一步研究和应用,MiMo-VL-7B 将为多模态领域带来更多的创新和突破。

MiMo-VL MiMo-VL 项目地址: https://gitcode.com/gh_mirrors/mi/MiMo-VL

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

钱溪双Bridget

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值