阿里推出QVQ 视觉推理模型，解锁视觉智能新维度

原创于 2024-12-26 15:36:36 发布 · 727 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#阿里巴巴 #QVQ #视觉推理 #算家云 #人工智能 #AI大模型 #AIGC

话题文章专栏收录该内容

245 篇文章

订阅专栏

年末将至，大家有没有收到跨年礼物呢，最近，小编发现AI领域倒是送出了很多年终大礼，前几天OpenAI宣布推出o3模型，这不，阿里也送上了今年最后一份礼物 —“眼睛”模型QVQ。

【图片来源于网络，侵删】

是不是很形象？这可能是全球第一个用于视觉推理的开源权重模型，其中的“V”代表视觉。它只需读取一张图像和一条指令，就能开始思考，在需要时进行反思，持续推理，最后得出有把握的预测！

QVQ能干嘛?

样样精通的文理全能学霸！

先来看一下视觉数学问题解决的一个例子：

【视频来源于网络，侵删】

不仅能答题，还能读图数鸭子：

【视频来源于网络，侵删】

从性能表现上看，他们在四个数据集中评估了QVQ-72B-Preview，包括MMMU、MathVista、MathVision、OlympiadBench。

值得一提的是， QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分，远远超过其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个针对数学和科学问题的基准测试中， QVQ-72B-Preview表现也很不错，缩小了与o1 模型的差距。

【图片来源于网络，侵删】

这里科普下这次的四个数据集：

1. MMMU：一所大学级多学科多模态评估数据集，旨在评估模型的视觉相关的综合理解和推理能力。

2. MathVista：以数学为中心的视觉推理测试集，使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。

3. MathVision：源自真实数学竞赛的高质量多模态数学推理测试集，与 MathVista 相比具有更大的问题多样性和主题广度。

4. OlympiadBench：奥林匹克竞赛级双语多模态科学基准测试集，包含 8,476 道奥林匹克数学和物理竞赛题，包括中国高考。每道题都附有专家级注释，详细说明了分步推理过程。

尽管QVQ展示了令人惊叹的能力，但目前该模型还处于实验研究阶段，仍有一些局限性：

1. 语言混合与切换：模型可能会在不同语言间切换，影响表达的清晰度；

2. 递归推理问题：在某些情况下，模型可能陷入循环逻辑，导致冗长却无结论的回答；

3. 安全与伦理问题：模型需要更高的安全性保障，用户在部署时需格外谨慎；

4. 性能与基准限制：在多步视觉推理中，模型可能逐渐失去对图像内容的关注，产生“幻觉”结果。

据官方透露，他们的愿景是开发一个全方位的智能模型，使其具有基于视觉信息的深度思考和推理的高级功能，从而能够应对复杂的挑战并参与科学探索。

不得不说，2024年的AI领域真是惊喜不断。不论是Sora 年末的 AI 视频带来的惊喜，还是o3破解最难数学题成为AI推理新起点带来的震撼，都在告示着AI正成为新的科技坐标，也在定义着下一个时代的科技。

小编也有一种预感：AGI这座大山，我们越来越接近。到那时，随着算力的使用门槛越来越低，AI或许能以最自然的方式进入我们的日常生活。

对于这次阿里推出的QVQ模型，大家有什么看法呢？欢迎在评论区留言~

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。