Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

最新推荐文章于 2025-06-28 14:08:19 发布

蚝油菜花

最新推荐文章于 2025-06-28 14:08:19 发布

阅读量2.3k

点赞数 12

CC 4.0 BY-SA版权

分类专栏：每日 AI 项目与应用实例文章标签：语言模型人工智能自然语言处理人工智能开源

本文链接：https://blog.youkuaiyun.com/qq_19841021/article/details/145394539

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

autotrain-advanced

Qwen2.5-VL 是阿里通义千问团队开源的旗舰视觉语言模型，具有3B、7B和72B三种不同规模。该模型在视觉理解方面表现出色，能够识别常见物体，分析图像中的文本、图表等元素。

Qwen2.5-VL 具备作为视觉Agent的能力，可以推理并动态使用工具，初步操作电脑和手机。在视频处理上，Qwen2.5-VL 能够理解超过1小时的长视频，精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。

Qwen2.5-VL 在多个性能测试中表现优异，在文档和图表理解方面优势明显，7B模型在多项任务中超越了GPT-4o-mini。模型的推出为开发者提供了强大的工具，能够在多种应用场景中发挥重要作用。

模型结构：Qwen2.5-VL 延续了上一代 Qwen-VL 中 ViT 加 Qwen2 的串联结构，三个不同规模的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。使模型能更好地融合视觉和语言信息，提高对多模态数据的理解能力。
多模态旋转位置编码（M-ROPE）：Qwen2.5-VL 采用的 M-ROPE 将旋转位置编码分解成时间、空间（高度和宽度）三部分，使大规模语言模型能同时捕捉和整合一维文本、二维视觉和三维视频的位置信息，赋予了模型强大的多模态处理和推理能力。
任意分辨率图像识别：Qwen2.5-VL 可以读懂不同分辨率和不同长宽比的图片，对图像的清晰度或大小能轻松识别。基于 naive dynamic resolution 支持，能将任意分辨率的图像映射成动态数量的视觉 token，保证了模型输入和图像信息的一致性。
网络结构简化

200万优质内容无限畅学