AI 观察:阿里巴巴的全新视觉语言模型开放

部署运行你感兴趣的模型镜像

       

 当DeepSeek展示其能力时,阿里巴巴则通过新的开放视觉-语言模型争夺关注。

最新动态:阿里巴巴宣布了Qwen2.5-VL,这是一个包含30亿、70亿和720亿参数的视觉-语言模型系列。这三个模型的权重均可以在Hugging Face上下载,但每个模型的许可不同:Qwen2.5-VL-3B免费用于非商业用途,Qwen2.5-VL-7B在Apache 2.0许可下免费用于商业和非商业用途,而Qwen2.5-VL-72B免费提供给月活跃用户少于1亿的开发者。您可以在阿里巴巴模型工作室免费试用一段时间,Qwen2.5-VL-72B也通过Qwen聊天中的模型选择器提供。

工作原理:根据开发者参考,Qwen2.5-VL模型可以接受高达129,024个令牌的输入(其他来源提供的数字可能不同)并生成高达8,192个令牌的输出。阿里巴巴尚未公布其训练细节。

·Qwen2.5-VL包括一个视觉编码器和一个大型语言模型。它可以解析视频、图像、文本,并且能够使用计算机(桌面和移动设备)。

·视觉编码器接受不同大小的图像,并根据大小使用不同数量的令牌来表示它们。例如,一个图像可能是8个令牌,而另一个是1125个令牌。这使模型能够学习图像的尺度,并在不重新缩放的情况下估计图像中物体的坐标。

·为了减少视觉编码器带来的计算开销,团队用窗口注意力(将输入上下文限制在一个给定令牌周围的窗口内)替代了全注意力(考虑整个输入上下文),并在四层中使用全注意力。这种效率提高了训练和推理速度。    

结果:阿里巴巴报告了Qwen2.5-VL-72B在涵盖图像和文本问题、解析文档、理解视频和与计算机程序交互的度量上的表现。在21个基准测试中,它在13个测试中超过了微软Gemini 2.0 Flash、OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet和开放竞争对手(在比较相关且可用的情况下)。

·例如,在MathVista上回答与图像相关的数学问题时,Qwen2.5-VL-72B达到了74.8%,而最接近的竞争模型(Gemini 2.0 Flash)达到了73.1%。

·在Video-MME中,该模型评估了模型回答视频问题的能力,Qwen 2.5 VL达到了73.3%。GPT-4o达到了71.9%,而下一个最好的开放竞争对手InternVL2.5达到了72.1%。

·在代理工作流中,Qwen2.5-VL-72B在控制Android设备和导航桌面用户界面方面超过了Claude 3.5 Sonnet,但在几个测试中落后于其他开放的视觉-语言模型。

更多模型:阿里巴巴还推出了与DeepSeek竞争的小模型系列。

·Qwen2.5-Max是一种专家混合模型,在GPQA-Diamond和Arena-Hard、LiveBench和LiveCodeBench等定期更新的基准测试中,它在研究生水平的科学问题上超过了GPT-4o和DeepSeek-V3。然而,Qwen2.5-Max在o1和DeepSeek-R1面前表现不佳。

·Qwen2.5-1M是一个小型语言模型系列(70亿和140亿参数),可以接受高达100万个令牌的输入上下文。    

为什么重要:视觉-语言模型正在变得越来越强大和多功能。不久前,仅能回答图表或混合文字与图形的图表问题就已经是一项令人印象深刻的能力。现在,这样的模型可以与代理结合来控制电脑和智能手机。总体来说,Qwen2.5-VL模型在开放和封闭的竞争对手中表现出色,并且在不同程度上是开放的(尽管数据不可用),为开发者提供了多种高质量的选择。

我们的看法:我们很高兴阿里巴巴发布了一个在商业用途上广泛许可的视觉-语言模型(虽然我们更希望所有规模的模型都能在标准的公开权重许可下提供)。我们希望看到技术报告来阐明阿里巴巴的训练和微调方法。

(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

图片

相关阅读:

重磅体验:AI编程不能取代程序员,但程序员会用的话确实很爽

最新洞见:GenAI在企业应用中的既要又要

短短3个月,我们在GenAI上的进展

关于译者


图片

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值