qwen2.5-vl：阿里开源超强多模态大模型（包含使用方法、微调方法介绍）

最新推荐文章于 2025-10-09 12:16:32 发布

原创

最新推荐文章于 2025-10-09 12:16:32 发布 · 4.1w 阅读

146 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC #深度学习 #pytorch #语言模型 #nlp #transformer

1.简介

在 Qwen2-VL 发布后的五个月里，众多开发者基于该视觉语言模型开发了新的模型，并向 Qwen 团队提供了极具价值的反馈。在此期间，Qwen 团队始终致力于打造更具实用性的视觉语言模型。今天，Qwen 家族的最新成员——Qwen2.5-VL正式登场。

主要增强功能：

直观地理解事物： Qwen2.5-VL 不仅能熟练识别花、鸟、鱼和昆虫等常见物体，还能高度分析文本、图表、图标、图形和图像中的布局。
具有代理功能： Qwen2.5-VL 可直接扮演视觉代理，能够推理和动态指挥工具，既能在电脑上使用，也能在手机上使用。
理解长视频并捕捉事件： Qwen2.5-VL可以理解1小时以上的视频，这次又增加了通过精确定位相关视频片段来捕捉事件的能力。
不同格式的可视化定位能力： Qwen2.5-VL 可通过生成边框或点来精确定位图像中的对象，并能为坐标和属性提供稳定的 JSON 输出。
生成结构化输出：用于扫描发票、表格、表格等数据。Qwen2.5-VL 支持对其内容进行结构化输出，有利于金融、商业等领域的使用。

相较上一代模型架构更新：

动态分辨率和帧速率训练，促进视频理解：通过采用动态 FPS 采样，qwen团队将动态分辨率扩展到了时间维度，使模型能够理解各种采样率的视频。相应地，qwen团队在时间维度上对 mRoPE 进行了更新，增加了 ID 和绝对时间对齐，使模型能够学习时间顺序和速度，最终获得精确定位特定时刻的能力。
精简高效的视觉编码器：qwen团队通过在 ViT 中战略性地实施窗口关注，提高了训练和推理速度。通过 SwiGLU 和 RMSNorm 进一步优化了 ViT 架构，使其与 Qwen2.5 LLM 的结构保持一致。

Qwen2.5-vl有三个模型，参数分别为 30、70 和 720 亿。此版本包含经过指令调整的 7B Qwen2.5-VL 模型。

模型权重地址（魔搭社区）：魔搭社区

模型权重地址（huggingface）：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

官方博客：Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen

github地址：https://github.com/QwenLM/Qwen2.5-VL

体验地址：Qwen Chat

2.效果

Qwen团队将Qwen2.5-vl模型与 SOTA 模型以及类似模型规模的最佳模型进行了评估。就旗舰模型 Qwen2.5-VL-72B-Instruct 而言，它在一系列涵盖领域和任务的基准测试中取得了极具竞争力的性能，其中包括大学难题、数学、文档理解、一般问题解答、数学、视频理解和视觉代理。值得注意的是，Qwen2.5-VL 在理解文档和图表方面具有显著优势，而且无需针对特定任务进行微调，就能扮演视觉代理的角色。

在小型模型方面，Qwen2.5-VL-7B-Instruct 在多项任务中的表现优于 GPT-4o-mini，而作为边缘人工智能解决方案的 Qwen2.5-VL-3B 甚至优于之前版本 Qwen2-VL 的 7B 模型。

全球图像识别

Qwen2.5-VL大幅增强了通用图像识别能力，将图像类别扩展到超多。不仅包括植物、动物、名山大川的地标，还包括电影和电视剧中的 IP 以及各种产品。

精确的目标定位

Qwen2.5-VL 利用边界框和基于点的表示法进行定位，从而实现分层定位和标准化 JSON 输出。这种增强的定位能力为可视化推理奠定了基础。

增强文本识别和理解能力

Qwen2.5-VL将OCR识别能力提升到了一个新的水平，增强了多场景、多语言、多方向的文本识别和文本本地化性能。此外，Qwen2.5-VL 在信息提取方面也有大幅提升，以满足资质审查和金融业务等领域日益增长的数字化和智能化需求。

强大的文档解析功能

Qwen2.5-VL 设计了一种名为 QwenVL HTML 格式的独特文档解析格式，可提取基于 HTML 的布局信息。QwenVL HTML 可以在各种场景下执行文档解析，如杂志、研究论文、网页甚至手机截图。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta n

最低0.47元/天解锁文章

18 条评论

mangta 2025.06.12
博主，你好，我看Qwen2.5VL好像输入base64也会转化为pixel使用，那可不可以直接输入pixel呢？
- Sherlock Ma回复mangta 2025.06.13
  没试过，你可以试试。

果果lord 2025.04.27
博主，你好，我想问一下，box里面的参数[x1,y1,x2,y2]是对应到目标检测框的[xmin,ymin,xmax,ymax]吗？

Hello,Helson 2025.03.17
博主您好，请问使用QWen2.5-VL模型的时候，怎么输出带有检测框的结果（比如判断骑摩托车的人是否带头盔这个场景）

Hello,Helson 2025.03.17
博主您好，请问使用QWen2.5-VL模型的时候，怎么输出带有检测框的结果（比如判断骑摩托车的人是否带头盔这个场景）
- Sherlock Ma回复Hello,Helson 2025.03.17
  看到效果里面的图了吗，把提示词写成他那样就行

qq_45790577 2025.03.09
你好，请问多图推理和视频推理需要的显存和单图推理一样吗？我用单图可以，但多图直接cuda out of memory
- Sherlock Ma回复qq_45790577 2025.03.14
  没试过

邹小时 2025.02.28
大哥, grouding微调这块, 资料在哪找的, 可不可以分享下.
- w13940062279回复邹小时 2025.03.22
  我也想知道，兄弟现在有消息不？

氺氷水yukki 2025.02.20
请问目标检测和文本识别是用的qwen哪个模型呀
- Sherlock Ma回复氺氷水yukki 2025.02.20
  应该是都可以，但是肯定是越大越强

Korloa 2025.02.13
大哥，你关于Qwen-VL的这些技术数据从哪里获取的呀
- Sherlock Ma回复Korloa 2025.02.15
  官方发的啊，每个Qwen模型都有一个简要介绍的小网站，huggingface和魔搭应该能跳转过去吧

尹子龙 2025.02.01
您的 swift 微调命令，没有指定 --model_type 参数，能微调成功吗
- Sherlock Ma回复尹子龙 2025.02.15
  swift官方文档里面写的是：默认为None，根据--model的后缀和config.json中的architectures属性进行自动选择