阿里推出QVQ 视觉推理模型,解锁视觉智能新维度

年末将至,大家有没有收到跨年礼物呢,最近,小编发现AI领域倒是送出了很多年终大礼,前几天OpenAI宣布推出o3模型,这不,阿里也送上了今年最后一份礼物 —“眼睛”模型QVQ。

【图片来源于网络,侵删】

是不是很形象?这可能是全球第一个用于视觉推理的开源权重模型,其中的“V”代表视觉。它只需读取一张图像和一条指令,就能开始思考,在需要时进行反思,持续推理,最后得出有把握的预测!

QVQ能干嘛?

样样精通的文理全能学霸!

先来看一下视觉数学问题解决的一个例子:

【视频来源于网络,侵删】

不仅能答题,还能读图数鸭子:

【视频来源于网络,侵删】

从性能表现上看,他们在四个数据集中评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision、OlympiadBench。

值得一提的是, QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分,远远超过其前身 Qwen2-VL-72B-Instruct。

此外,在其余三个针对数学和科学问题的基准测试中, QVQ-72B-Preview表现也很不错,缩小了与o1 模型的差距。

【图片来源于网络,侵删】

这里科普下这次的四个数据集:

1. MMMU:一所大学级多学科多模态评估数据集,旨在评估模型的视觉相关的综合理解和推理能力。

2. MathVista:以数学为中心的视觉推理测试集,使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。

3. MathVision:源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比具有更大的问题多样性和主题广度。

4. OlympiadBench:奥林匹克竞赛级双语多模态科学基准测试集,包含 8,476 道奥林匹克数学和物理竞赛题,包括中国高考。每道题都附有专家级注释,详细说明了分步推理过程。

尽管QVQ展示了令人惊叹的能力,但目前该模型还处于实验研究阶段,仍有一些局限性:

1. 语言混合与切换:模型可能会在不同语言间切换,影响表达的清晰度;

2. 递归推理问题:在某些情况下,模型可能陷入循环逻辑,导致冗长却无结论的回答;

3. 安全与伦理问题:模型需要更高的安全性保障,用户在部署时需格外谨慎;

4. 性能与基准限制:在多步视觉推理中,模型可能逐渐失去对图像内容的关注,产生“幻觉”结果。

据官方透露,他们的愿景是开发一个全方位的智能模型,使其具有基于视觉信息的深度思考和推理的高级功能,从而能够应对复杂的挑战并参与科学探索。

不得不说,2024年的AI领域真是惊喜不断。 不论是Sora 年末的 AI 视频带来的惊喜,还是o3破解最难数学题成为AI推理新起点带来的震撼,都在告示着AI正成为新的科技坐标,也在定义着下一个时代的科技。

小编也有一种预感:AGI这座大山,我们越来越接近。到那时,随着算力的使用门槛越来越低,AI或许能以最自然的方式进入我们的日常生活。

对于这次阿里推出的QVQ模型,大家有什么看法呢?欢迎在评论区留言~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值