前言
本文重点介绍使用无 OCR 大型多模态模型解析 PDF 的方法。它主要讨论了三种典型的无 OCR 大型多模态模型用于文档理解:
- TextMonkey:一种用于理解文档的无 OCR 大型多模式模型
- Vary:扩大大型视觉语言模型的视觉词汇量
- StrucTexTv3:一种高效的富文本图像视觉语言模型
本文还将提供从这些模型中得出的见解和想法。
文本猴子
TextMonkey是一个大型多模式模型,专为以文本为中心的任务(例如文档问答和场景文本分析)而设计。
概述
TextMonkey 能够在有限的训练资源下实现分辨率增强,同时保留跨窗口信息,减少分辨率增强引入的冗余 token。此外,通过各种数据和借口提示,TextMonkey 已经具备了处理多任务的能力。
图 1:TextMonkey 概览。
如图 1 所示,TextMonkey 架构特点如下:
- 首先,输入图像通过分割模块分割成互不重叠的块,每个块的尺寸为 448x448 像素。这些块进一步划分为更小的 14x14 像素块,其中每个块被视为一个标记。
- 增强跨窗口关系。TextMonkey 采用移位窗口注意力机制,在扩展输入分辨率的同时成功整合了跨窗口连接。此外,TextMonkey 在移位窗口注意力机制中引入了零初始化,使模型能够避免对早期训练进行大幅度修改。
- Token Resampler 用于压缩 token 的长度,从而减少语言空间中的冗余。然后,这些处理过的特征与输入问题一起由 LLM 进行分析,以生成所需的答案。
表现
由于TextMonkey 尚未发布其推理方法,我们将通过其论文中描述的实验来检查其能力。
我们主要关注的是它的PDF 解析能力。也就是说,将 PDF 和图像转换为结构化或半结构化格式的能力。
如图 2 左侧所示,TextMonkey 可以准确定位和识别场景和文档图像中的文本。
图 2:TextMonkey 的可视化结果。模型生成的边界框以红色显示。基本事实的位置以绿色框突出显示。
此外,表格和图表的解析能力也至关重要,TextMonkey也进行了相关测试,如图3所示。
图 3:图表和表格结构化示例。
如图 3 所示,TextMonkey 可以将图表和表格转换为 JSON 格式,展示了其在下游应用程序中使用的潜力。
Vary
现代大型视觉语言模型拥有庞大的通用视觉词汇表 — CLIP,其中包含超过 4 亿个图像文本对。它涵盖了最常见的图像和视觉任务。
然而,在某些场景中,例如高分辨率感知、非英语 OCR 和文档/图表理解,CLIP-VIT 可能会因标记效率低下而遇到困难。这是因为它很难将所有视觉信息编码为固定数量的标记,通常为 256 个。
虽然mPlug-Owl和Qwen-VL尝试通过解冻其视觉词汇网络(CLIP-L 或 CLIP-G)来解决此问题,但Vary认为这不是一种合理的方法。原因如下:
- 它可能会覆盖原有的词汇知识。
- 在相对较大的 LLM(7B)上更新视觉词汇的训练