AI 观察：阿里巴巴的全新视觉语言模型开放

最新推荐文章于 2025-12-17 17:41:55 发布

转载最新推荐文章于 2025-12-17 17:41:55 发布 · 213 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MjQ3NzE2Mw==&mid=2247486119&idx=2&sn=e20e7b079e64d31046591a0c8cac697c&chksm=e8e8bb4b66f750c02e779dcc2657c8d2a440ba4c4d4d12712e15ce140ea1cc52ca58f36f60cd&scene=126&sessionid=0

文章标签：

#人工智能 #语言模型 #自然语言处理

部署运行你感兴趣的模型镜像

当DeepSeek展示其能力时，阿里巴巴则通过新的开放视觉-语言模型争夺关注。

最新动态：阿里巴巴宣布了Qwen2.5-VL，这是一个包含30亿、70亿和720亿参数的视觉-语言模型系列。这三个模型的权重均可以在Hugging Face上下载，但每个模型的许可不同：Qwen2.5-VL-3B免费用于非商业用途，Qwen2.5-VL-7B在Apache 2.0许可下免费用于商业和非商业用途，而Qwen2.5-VL-72B免费提供给月活跃用户少于1亿的开发者。您可以在阿里巴巴模型工作室免费试用一段时间，Qwen2.5-VL-72B也通过Qwen聊天中的模型选择器提供。

工作原理：根据开发者参考，Qwen2.5-VL模型可以接受高达129,024个令牌的输入（其他来源提供的数字可能不同）并生成高达8,192个令牌的输出。阿里巴巴尚未公布其训练细节。

·Qwen2.5-VL包括一个视觉编码器和一个大型语言模型。它可以解析视频、图像、文本，并且能够使用计算机（桌面和移动设备）。

·视觉编码器接受不同大小的图像，并根据大小使用不同数量的令牌来表示它们。例如，一个图像可能是8个令牌，而另一个是1125个令牌。这使模型能够学习图像的尺度，并在不重新缩放的情况下估计图像中物体的坐标。

·为了减少视觉编码器带来的计算开销，团队用窗口注意力（将输入上下文限制在一个给定令牌周围的窗口内）替代了全注意力（考虑整个输入上下文），并在四层中使用全注意力。这种效率提高了训练和推理速度。

结果：阿里巴巴报告了Qwen2.5-VL-72B在涵盖图像和文本问题、解析文档、理解视频和与计算机程序交互的度量上的表现。在21个基准测试中，它在13个测试中超过了微软Gemini 2.0 Flash、OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet和开放竞争对手（在比较相关且可用的情况下）。

·例如，在MathVista上回答与图像相关的数学问题时，Qwen2.5-VL-72B达到了74.8%，而最接近的竞争模型（Gemini 2.0 Flash）达到了73.1%。

·在Video-MME中，该模型评估了模型回答视频问题的能力，Qwen 2.5 VL达到了73.3%。GPT-4o达到了71.9%，而下一个最好的开放竞争对手InternVL2.5达到了72.1%。

·在代理工作流中，Qwen2.5-VL-72B在控制Android设备和导航桌面用户界面方面超过了Claude 3.5 Sonnet，但在几个测试中落后于其他开放的视觉-语言模型。

更多模型：阿里巴巴还推出了与DeepSeek竞争的小模型系列。

·Qwen2.5-Max是一种专家混合模型，在GPQA-Diamond和Arena-Hard、LiveBench和LiveCodeBench等定期更新的基准测试中，它在研究生水平的科学问题上超过了GPT-4o和DeepSeek-V3。然而，Qwen2.5-Max在o1和DeepSeek-R1面前表现不佳。

·Qwen2.5-1M是一个小型语言模型系列（70亿和140亿参数），可以接受高达100万个令牌的输入上下文。

为什么重要：视觉-语言模型正在变得越来越强大和多功能。不久前，仅能回答图表或混合文字与图形的图表问题就已经是一项令人印象深刻的能力。现在，这样的模型可以与代理结合来控制电脑和智能手机。总体来说，Qwen2.5-VL模型在开放和封闭的竞争对手中表现出色，并且在不同程度上是开放的（尽管数据不可用），为开发者提供了多种高质量的选择。

我们的看法：我们很高兴阿里巴巴发布了一个在商业用途上广泛许可的视觉-语言模型（虽然我们更希望所有规模的模型都能在标准的公开权重许可下提供）。我们希望看到技术报告来阐明阿里巴巴的训练和微调方法。

（本文系翻译，内容来自DeepLearning.AI，文章内容不代表本号立场）

觉得文章不错，顺手点个“点赞”、“在看”或转发给朋友们吧。