QVQ-72B-Preview是一个基于 Qwen2-VL-72B 构建的多模态推理模型。QVQ 代表了 AI 在视觉理解和复杂问题解决能力方面的重大飞跃。QVQ 在 MMMU 上获得了 70.3 分,与 Qwen2-VL-72B-Struct 相比,在数学相关基准测试中显示出显着改进。通过仔细的逐步推理,QVQ 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域中表现出色。
-
官方博客:https://qwenlm.github.io/blog/qvq-72b-preview
-
HuggingFace地址:https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888
-
ModelScope地址:https://modelscope.cn/models/Qwen/QVQ-72B-Preview
-
Kaggle地址:https://kaggle.com/models/qwen-lm/qvq-72b-preview
-
官方Demo体验地址:https://modelscope.cn/studios/Qwen/QVQ-72B-preview
一、性能
QVQ-72B-Preview在如下4 个数据集上进行评估:
- MMMU:一个大学级别的多学科多模态评估数据集,旨在评估模型与视觉相关的综合理解和推理能力。
- MathVista:一个以数学为中心的视觉推理测试集