小白学大模型:多模态 Qwen2.5-VL,收藏这一篇就够了!!

前言

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

https://github.com/QwenLM/Qwen2.5-VL

安装方法

pip install git+https://github.com/huggingface/transformers accelerate
pip install qwen-vl-utils[decord]

模型硬件要求:

PrecisionQwen2.5-VL-3BQwen2.5-VL-7BQwen2.5-VL-72B
FP3211.5 GB26.34 GB266.21 GB
BF165.75 GB13.17 GB133.11 GB
INT82.87 GB6.59 GB66.5 GB
INT41.44 GB3.29 GB33.28 GB

模型特性

  • 强大的文档解析能力:将文本识别升级为全文档解析,擅长处理多场景、多语言以及包含各种内置元素(手写文字、表格、图表、化学公式和乐谱)的文档。
  • 精准的对象定位跨格式支持:提升了检测、指向和计数对象的准确性,支持绝对坐标和JSON格式,以实现高级空间推理。
  • 超长视频理解和细粒度视频定位:将原生动态分辨率扩展到时间维度,增强对时长数小时的视频的理解能力,同时能够在秒级提取事件片段。
  • 增强的计算机和移动设备代理功能:借助先进的定位、推理和决策能力,为模型赋予智能手机和计算机上更出色的代理功能。

使用案例

基础图文问答

from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen2.5-VL-7B-Instruct", torch_dtype="auto", device_map="auto"
)

# 传入文本、图像或视频
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
            },
            {"type": "text", "text": "Describe this image."},
        ],
    }
]

# Preparation for inference
text = processor.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
    text=[text],
    images=image_inputs,
    videos=video_inputs,
    padding=True,
    return_tensors="pt",
)
inputs = inputs.to(model.device)

# Inference: Generation of the output
generated_ids = model.generate(**inputs, max_new_tokens=128)
generated_ids_trimmed = [
    out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
]
output_text = processor.batch_decode(
    generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
)
print(output_text)

多图输入

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "file:///path/to/image1.jpg"},
            {"type": "image", "image": "file:///path/to/image2.jpg"},
            {"type": "text", "text": "Identify the similarities between these images."},
        ],
    }
]

视频理解

  • Messages containing a images list as a video and a text query
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": [
                    "file:///path/to/frame1.jpg",
                    "file:///path/to/frame2.jpg",
                    "file:///path/to/frame3.jpg",
                    "file:///path/to/frame4.jpg",
                ],
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]
  • Messages containing a local video path and a text query
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "file:///path/to/video1.mp4",
                "max_pixels": 360 * 420,
                "fps": 1.0,
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]
  • Messages containing a video url and a text query
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "video",
                "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2-VL/space_woaudio.mp4",
                "min_pixels": 4 * 28 * 28,
                "max_pixels": 256 * 28 * 28,
                "total_pixels": 20480 * 28 * 28,
            },
            {"type": "text", "text": "Describe this video."},
        ],
    }
]

物体检测

  • 定位最右上角的棕色蛋糕,以JSON格式输出其bbox坐标

图片

  • 请以JSON格式输出图中所有物体bbox的坐标以及它们的名字,然后基于检测结果回答以下问题:图中物体的数目是多少?

图片

图文解析OCR

  • 请识别出图中所有的文字

图片

  • Spotting all the text in the image with line-level, and output in JSON format.

图片

  • 提取图中的:[‘发票代码’,‘发票号码’,‘到站’,‘燃油费’,‘票价’,‘乘车日期’,‘开车时间’,‘车次’,‘座号’],并且按照json格式输出。

图片

Agent & Computer Use

The user query:在盒马中,打开购物车,结算(到付款页面即可) (You have done the following operation on the current device):

图片

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

### 技术架构 Qwen2.5-VL多模态大模型是基于Qwen2-VL的进一步优化版本,其技术架构在多个方面进行了创新与改进。首先,该模型引入了动态分辨率训练(Dynamic Resolution Training),这一机制允许模型处理不同大小的图像输入[^1]。这种灵活性不仅提高了模型对各种尺寸图像的适应能力,还可能有助于提升图像识别的准确性。 其次,Qwen2.5-VL采用了时间维度的MRoPE(Multimodal Rotary Position Embedding)编码技术。这项技术使得文本、图像和视频的位置信息能有效地融合在一起,从而增强了模型对于视觉内容的理解能力[^1]。通过统一处理文本、图像和视频的方式,Qwen2.5-VL在多种模态之间建立更紧密的联系,提供更加连贯和准确的信息处理体验。 此外,Qwen2.5-VL拥有320亿参数规模,这表明它具有强大的计算能力和较高的数据处理效率。这种大规模参数配置使得模型能更好地捕捉到输入数据中的细微差异,进而提高其在复杂任务上的表现性能。 ### 应用场景 Qwen2.5-VL多模态大模型的应用范围非常广泛,包括但不限于以下几个方面: - **教育领域**:如用户提到的案例中,Qwen2-VL-72B已经被集成到了七月在线官网的教育视频中,用于实现提问VLM项目。这意味着生可以通过视频直接向教师或课程提出问题,而无需离开当前的习界面[^3]。 - **娱乐产业**:鉴于Qwen2.5-VL支持长达1小时的视频内容处理,并具备精准的事件定位能力,它可以应用于视频编辑软件中,帮助创作者快速找到特定片段或者自动剪辑精彩瞬间[^1]。 - **医疗健康**:在医影像分析方面,Qwen2.5-VL可以辅助医生解读X光片、MRI等图像资料,甚至预测疾病发展趋势,为临床决策提供科依据。 - **零售业**:利用Qwen2.5-VL的强大视觉感知功能,零售商可以开发智能货架管理系统,实时监控库存状态并及时补充商品;同时也能用于顾客行为分析,优化店铺布局和服务流程。 - **安全监控**:结合高清摄像头和其他传感器设备,Qwen2.5-VL可用于构建先进的安防系统,不仅能识别人脸和车牌号码,还能检测异常活动并发出警报。 综上所述,Qwen2.5-VL多模态大模型凭借其卓越的技术特性和多样化的应用场景,在推动人工智能技术发展的同时也为各行各业带来了前所未有的机遇。 ```python # 示例代码:假设有一个函数用来调用Qwen2.5-VL进行图像描述生成 def generate_image_description(image_path): # 这里应该有具体的API调用逻辑 description = "A detailed description of the image generated by Qwen2.5-VL." return description # 使用示例 image_desc = generate_image_description("path/to/image.jpg") print(image_desc) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值