MLLM(四)| 阿里多模态大模型QVQ-72B-Preview: 以智慧看世界

       QVQ-72B-Preview是一个基于 Qwen2-VL-72B 构建的多模态推理模型。QVQ 代表了 AI 在视觉理解和复杂问题解决能力方面的重大飞跃。QVQ 在 MMMU 上获得了 70.3 分,与 Qwen2-VL-72B-Struct 相比,在数学相关基准测试中显示出显着改进。通过仔细的逐步推理,QVQ 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域中表现出色。

  • 官方博客:https://qwenlm.github.io/blog/qvq-72b-preview

  • HuggingFace地址:https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888

  • ModelScope地址:https://modelscope.cn/models/Qwen/QVQ-72B-Preview

  • Kaggle地址:https://kaggle.com/models/qwen-lm/qvq-72b-preview

  • 官方Demo体验地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview

一、性能

QVQ-72B-Preview在如下4 个数据集上进行评估:

  • MMMU:一个大学级别的多学科多模态评估数据集,旨在评估模型与视觉相关的综合理解和推理能力。
  • MathVista:一个以数学为中心的视觉推理测试集
内容概要:论文介绍了一种新型开源多模态大语言模型(Multimodal Large Language Model, MLLM)——VITA。它支持同时处理和分析视频、图像、文本和音频多种数据模式,提供了强大的多模态交互能力。具体而言,VITA起始于Mixtral 8×7B的语言基础上,增强了对中文的支持并引入了双语指令调整以及视觉音频特征对齐,通过两阶段多任务训练使其能够进行自然的非唤醒互动(无需触发词启动)、音频打断互动(允许中途更换话题),最终在各种基准测试上展示了优异的表现。 适合人群:计算机科学家、机器学习研究人员和技术爱好者;尤其是那些关注深度学习技术和自然语言处理的人士。 使用场景及目标:本项目适用于科研机构和企业希望构建具有高效人机对话界面的应用程序时。它可以部署于智能客服系统、语音助手等领域,并作为研究多模态理解的重要工具。此外,还可以进一步探索改进当前开放源码版本中存在的局限如优化噪声识别策略来提升实际应用价值。 其他说明:VITA不仅实现了卓越的基础性能,在某些方面接近甚至超过同类专有产品水平;更重要的是,它开创了全新的交互方式—不依靠特定命令触发便可即时响应用户请求;即使正在生成回复也能立刻中断转向最新输入;这种突破性的创新对于未来发展有着深远意义。为了推动社区内的共同进步,VITA的所有相关资料均已完全公开发布在网上供他人参考学习.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wshzd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值