qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)

1.简介

在 Qwen2-VL 发布后的五个月里,众多开发者基于该视觉语言模型开发了新的模型,并向 Qwen 团队提供了极具价值的反馈。在此期间,Qwen 团队始终致力于打造更具实用性的视觉语言模型。今天,Qwen 家族的最新成员——Qwen2.5-VL正式登场。

主要增强功能

  • 直观地理解事物: Qwen2.5-VL 不仅能熟练识别花、鸟、鱼和昆虫等常见物体,还能高度分析文本、图表、图标、图形和图像中的布局。
  • 具有代理功能: Qwen2.5-VL 可直接扮演视觉代理,能够推理和动态指挥工具,既能在电脑上使用,也能在手机上使用。
  • 理解长视频并捕捉事件: Qwen2.5-VL可以理解1小时以上的视频,这次又增加了通过精确定位相关视频片段来捕捉事件的能力。
  • 不同格式的可视化定位能力: Qwen2.5-VL 可通过生成边框或点来精确定位图像中的对象,并能为坐标和属性提供稳定的 JSON 输出。
  • 生成结构化输出:用于扫描发票、表格、表格等数据。Qwen2.5-VL 支持对其内容进行结构化输出,有利于金融、商业等领域的使用。

相较上一代模型架构更新

  • 动态分辨率和帧速率训练,促进视频理解:通过采用动态 FPS 采样,qwen团队将动态分辨率扩展到了时间维度,使模型能够理解各种采样率的视频。相应地,qwen团队在时间维度上对 mRoPE 进行了更新,增加了 ID 和绝对时间对齐,使模型能够学习时间顺序和速度,最终获得精确定位特定时刻的能力。
  • 精简高效的视觉编码器:qwen团队通过在 ViT 中战略性地实施窗口关注,提高了训练和推理速度。通过 SwiGLU 和 RMSNorm 进一步优化了 ViT 架构,使其与 Qwen2.5 LLM 的结构保持一致。

Qwen2.5-vl有三个模型,参数分别为 30、70 和 720 亿。此版本包含经过指令调整的 7B Qwen2.5-VL 模型。

-

模型权重地址(魔搭社区):魔搭社区

模型权重地址(huggingface):https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

官方博客:Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL! | Qwen

github地址:https://github.com/QwenLM/Qwen2.5-VL

体验地址:Qwen Chat

    -

    -

    2.效果

    Qwen团队将Qwen2.5-vl模型与 SOTA 模型以及类似模型规模的最佳模型进行了评估。就旗舰模型 Qwen2.5-VL-72B-Instruct 而言,它在一系列涵盖领域和任务的基准测试中取得了极具竞争力的性能,其中包括大学难题、数学、文档理解、一般问题解答、数学、视频理解和视觉代理。值得注意的是,Qwen2.5-VL 在理解文档和图表方面具有显著优势,而且无需针对特定任务进行微调,就能扮演视觉代理的角色。

    在小型模型方面,Qwen2.5-VL-7B-Instruct 在多项任务中的表现优于 GPT-4o-mini,而作为边缘人工智能解决方案的 Qwen2.5-VL-3B 甚至优于之前版本 Qwen2-VL 的 7B 模型。

    全球图像识别

    Qwen2.5-VL大幅增强了通用图像识别能力,将图像类别扩展到超多。不仅包括植物、动物、名山大川的地标,还包括电影和电视剧中的 IP 以及各种产品。

    精确的目标定位

    Qwen2.5-VL 利用边界框和基于点的表示法进行定位,从而实现分层定位和标准化 JSON 输出。这种增强的定位能力为可视化推理奠定了基础。

    -

    增强文本识别和理解能力

    Qwen2.5-VL将OCR识别能力提升到了一个新的水平,增强了多场景、多语言、多方向的文本识别和文本本地化性能。此外,Qwen2.5-VL 在信息提取方面也有大幅提升,以满足资质审查和金融业务等领域日益增长的数字化和智能化需求。

    -

    -

    强大的文档解析功能

    Qwen2.5-VL 设计了一种名为 QwenVL HTML 格式的独特文档解析格式,可提取基于 HTML 的布局信息。QwenVL HTML 可以在各种场景下执行文档解析,如杂志、研究论文、网页甚至手机截图。

    -

    <!DOCTYPE html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <meta n
    这个错误提示显示 Redis 需要进行身份验证,而 Celery Flower 没有提供身份验证信息。你需要在 Celery 的配置文件中添加 Redis 的身份验证信息。 具体步骤如下: 1. 打开 Celery 的配置文件,通常为 `celeryconfig.py` 或 `celery.py`。 2. 在配置文件中添加以下内容: ```python broker_url = 'redis://user:password@localhost:6379/0' ``` 其中,`user` 和 `password` 分别为 Redis 的用户名和密码,`localhost` 为 Redis 的地址,`6379` 为 Redis 的端口号,`0` 为 Redis 的数据库编号。 3. 保存配置文件并重新启动 Celery Flower。 如果你没有设置 Redis 的身份验证信息,可以在 Redis 中设置用户名和密码。具体步骤如下: 1. 打开 Redis 的配置文件,通常为 `redis.conf`。 2. 找到以下内容: ```conf # Require clients to issue AUTH <PASSWORD> before processing any other # commands. This might be useful in environments in which you do not trust # others with access to the host running redis-server. # # This should stay commented out for backward compatibility and because most # people do not need auth (e.g. they run their own servers). # # Warning: since Redis is pretty fast an outside user can try up to # 150k passwords per second against a good box. This means that you should # use a very strong password otherwise it will be very easy to break. # # requirepass foobared ``` 3. 将 `requirepass` 的注释去掉,并将 `foobared` 替换为你要设置的密码。 4. 保存配置文件并重新启动 Redis。 然后,在 Celery 的配置文件中添加 Redis 的身份验证信息即可。
    评论 17
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值