使用无 OCR 大型多模态模型解析 PDF 的方法

RA AI衍生者训练营

已于 2025-03-13 17:13:27 修改

阅读量2.9k

点赞数 19

CC 4.0 BY-SA版权

文章标签： ocr ai pdf

于 2024-07-02 15:22:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/RamendeusStudio/article/details/140127722

前言

本文重点介绍使用无 OCR 大型多模态模型解析 PDF 的方法。它主要讨论了三种典型的无 OCR 大型多模态模型用于文档理解：

TextMonkey：一种用于理解文档的无 OCR 大型多模式模型
Vary：扩大大型视觉语言模型的视觉词汇量
StrucTexTv3：一种高效的富文本图像视觉语言模型

本文还将提供从这些模型中得出的见解和想法。

文本猴子

TextMonkey是一个大型多模式模型，专为以文本为中心的任务（例如文档问答和场景文本分析）而设计。

概述

TextMonkey 能够在有限的训练资源下实现分辨率增强，同时保留跨窗口信息，减少分辨率增强引入的冗余 token。此外，通过各种数据和借口提示，TextMonkey 已经具备了处理多任务的能力。

图 1：TextMonkey 概览。

如图 1 所示，TextMonkey 架构特点如下：

首先，输入图像通过分割模块分割成互不重叠的块，每个块的尺寸为 448x448 像素。这些块进一步划分为更小的 14x14 像素块，其中每个块被视为一个标记。
增强跨窗口关系。TextMonkey 采用移位窗口注意力机制，在扩展输入分辨率的同时成功整合了跨窗口连接。此外，TextMonkey 在移位窗口注意力机制中引入了零初始化，使模型能够避免对早期训练进行大幅度修改。
Token Resampler 用于压缩 token 的长度，从而减少语言空间中的冗余。然后，这些处理过的特征与输入问题一起由 LLM 进行分析，以生成所需的答案。

表现

由于TextMonkey 尚未发布其推理方法，我们将通过其论文中描述的实验来检查其能力。

我们主要关注的是它的PDF 解析能力。也就是说，将 PDF 和图像转换为结构化或半结构化格式的能力。

如图 2 左侧所示，TextMonkey 可以准确定位和识别场景和文档图像中的文本。

图 2：TextMonkey 的可视化结果。模型生成的边界框以红色显示。基本事实的位置以绿色框突出显示。

此外，表格和图表的解析能力也至关重要，TextMonkey也进行了相关测试，如图3所示。

图 3：图表和表格结构化示例。

如图 3 所示，TextMonkey 可以将图表和表格转换为 JSON 格式，展示了其在下游应用程序中使用的潜力。

Vary

现代大型视觉语言模型拥有庞大的通用视觉词汇表 — CLIP，其中包含超过 4 亿个图像文本对。它涵盖了最常见的图像和视觉任务。

然而，在某些场景中，例如高分辨率感知、非英语 OCR 和文档/图表理解，CLIP-VIT 可能会因标记效率低下而遇到困难。这是因为它很难将所有视觉信息编码为固定数量的标记，通常为 256 个。

虽然mPlug-Owl和Qwen-VL尝试通过解冻其视觉词汇网络（CLIP-L 或 CLIP-G）来解决此问题，但Vary认为这不是一种合理的方法。原因如下：

它可能会覆盖原有的词汇知识。
在相对较大的 LLM（7B）上更新视觉词汇的训练

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。