1.简介
在 Qwen2-VL 发布后的五个月里,众多开发者基于该视觉语言模型开发了新的模型,并向 Qwen 团队提供了极具价值的反馈。在此期间,Qwen 团队始终致力于打造更具实用性的视觉语言模型。今天,Qwen 家族的最新成员——Qwen2.5-VL正式登场。
主要增强功能:
- 直观地理解事物: Qwen2.5-VL 不仅能熟练识别花、鸟、鱼和昆虫等常见物体,还能高度分析文本、图表、图标、图形和图像中的布局。
- 具有代理功能: Qwen2.5-VL 可直接扮演视觉代理,能够推理和动态指挥工具,既能在电脑上使用,也能在手机上使用。
- 理解长视频并捕捉事件: Qwen2.5-VL可以理解1小时以上的视频,这次又增加了通过精确定位相关视频片段来捕捉事件的能力。
- 不同格式的可视化定位能力: Qwen2.5-VL 可通过生成边框或点来精确定位图像中的对象,并能为坐标和属性提供稳定的 JSON 输出。
- 生成结构化输出:用于扫描发票、表格、表格等数据。Qwen2.5-VL 支持对其内容进行结构化输出,有利于金融、商业等领域的使用。
相较上一代模型架构更新:
- 动态分辨率和帧速率训练,促进视频理解:通过采用动态 FPS 采样,qwen团队将动态分辨率扩展到了时间维度,使模型能够理解各种采样率的视频。相应地,qwen团队在时间维度上对 mRoPE 进行了更新,增加了 ID 和绝对时间对齐,使模型能够学习时间顺序和速度,最终获得精确定位特定时刻的能力。
- 精简高效的视觉编码器:qwen团队通过在 ViT 中战略性地实施窗口关注,提高了训练和推理速度。通过 SwiGLU 和 RMSNorm 进一步优化了 ViT 架构,使其与 Qwen2.5 LLM 的结构保持一致。
Qwen2.5-vl有三个模型,参数分别为 30、70 和 720 亿。此版本包含经过指令调整的 7B Qwen2.5-VL 模型。
-
模型权重地址(魔搭社区):魔搭社区
模型权重地址(huggingface):https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
官方博客:Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen
github地址:https://github.com/QwenLM/Qwen2.5-VL
体验地址:Qwen Chat
-
-
2.效果
Qwen团队将Qwen2.5-vl模型与 SOTA 模型以及类似模型规模的最佳模型进行了评估。就旗舰模型 Qwen2.5-VL-72B-Instruct 而言,它在一系列涵盖领域和任务的基准测试中取得了极具竞争力的性能,其中包括大学难题、数学、文档理解、一般问题解答、数学、视频理解和视觉代理。值得注意的是,Qwen2.5-VL 在理解文档和图表方面具有显著优势,而且无需针对特定任务进行微调,就能扮演视觉代理的角色。
在小型模型方面,Qwen2.5-VL-7B-Instruct 在多项任务中的表现优于 GPT-4o-mini,而作为边缘人工智能解决方案的 Qwen2.5-VL-3B 甚至优于之前版本 Qwen2-VL 的 7B 模型。
全球图像识别
Qwen2.5-VL大幅增强了通用图像识别能力,将图像类别扩展到超多。不仅包括植物、动物、名山大川的地标,还包括电影和电视剧中的 IP 以及各种产品。
精确的目标定位
Qwen2.5-VL 利用边界框和基于点的表示法进行定位,从而实现分层定位和标准化 JSON 输出。这种增强的定位能力为可视化推理奠定了基础。
-
-
增强文本识别和理解能力
Qwen2.5-VL将OCR识别能力提升到了一个新的水平,增强了多场景、多语言、多方向的文本识别和文本本地化性能。此外,Qwen2.5-VL 在信息提取方面也有大幅提升,以满足资质审查和金融业务等领域日益增长的数字化和智能化需求。
-
-
强大的文档解析功能
Qwen2.5-VL 设计了一种名为 QwenVL HTML 格式的独特文档解析格式,可提取基于 HTML 的布局信息。QwenVL HTML 可以在各种场景下执行文档解析,如杂志、研究论文、网页甚至手机截图。
-
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta n