Qwen2.5-VL：更强大的多模态大模型｜附实测结果

最新推荐文章于 2025-05-06 11:43:13 发布

深度学习机器

最新推荐文章于 2025-05-06 11:43:13 发布

阅读量1.2k

点赞数 5

分类专栏：大语言模型 RAG 优质项目文章标签：人工智能开源语言模型计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_33137873/article/details/145410726

版权

大语言模型同时被 3 个专栏收录

45 篇文章

订阅专栏

35 篇文章

订阅专栏

28 篇文章

订阅专栏

模型更新简述

几天前，通义千问更新了最新的多模态大模型Qwen2.5-VL，拥有包含 3B、7B 和 72B 在内的 3 个模型尺寸，同时完全开源，可在huggingface和modelscope下载到所有模型权重。

1. 更灵活的时空维度处理

● 空间维度上，动态地将不同尺寸的图像转换为不同长度的token，并且使用图像的实际尺寸来表示检测框和点等坐标。
● 时间维度上，使用了动态FPS训练和绝对时间编码，使得模型能够通过时间维度 id 的间隔来学习时间的节奏

2. 更精简高效的视觉编码器

● 引入了窗口注意力机制，有效减少了 ViT 端的计算负担，提高了训练和推理速度。
● 采用了 RMSNorm 和 SwiGLU 结构，使 ViT 架构与 LLMs 更加一致，简化了整体网络结构。

模型能力简述

● 视觉理解：具备更强的图片识别能力，能够识别从花朵到复杂图表的各种视觉内容。
● 代理能力：具备推理能力，能够推理和使用工具，支持在电脑、手机上进行交互。
● 长视频理解：能够处理小时级的视频，精确定位视频中的具体时间段和事件。
● 精确定位：提升了物体检测、指向和计数的准确性，支持生成边界框和JSON输出，进行准确的对象检测。
● 结构化数据输出：可以处理多场景、多语言的文档，支持手写文字、表格、图表、化学公式和乐谱等多种格式识别，适用于金融和商业领域，处理发票、表格等。

效果实测

1. 表格解析

直接输入一张带有合并单元格的表格，并且单元格边框不明确，让模型转换为Markdown格式。
在这里插入图片描述

可以看到Markdown的结果丢失了表头，导致正文部分最后一列被忽略了。对于这种带有单元格合并的表格，会存在部分单元格却失的情况。
在这里插入图片描述

2. 票据识别与计算

第一个测试比较简单，让模型理解发票的金额。

在这里插入图片描述

第二个测试稍微难了些，需要进行简单的计算，但是过程和结果都是对的。

在这里插入图片描述

3. 文字识别

识别图片中的文字，并且按顺序输出。
在这里插入图片描述

4 文档解析

在这里插入图片描述

Qwen2.5-VL支持将文档解析为HTML 格式，但是从实际测试来看，没有完全将文档的布局进行还原，文档中的图片也无法恢复。

总结

这版模型增强了对于文档的解析和问答效果，可以一定程度上替代OCR模型的使用，也具备关键信息提取的能力，同时能够实现格式化输出。
表格解析和文档解析可能会有丢失格式的情况，在文档解析中，原始文档中的图片是没法复原的。这个过程可能也与提示词有关，或者需要多轮交互让模型输出正确的样式。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。