新型预训练任务提升文档理解能力

最新推荐文章于 2025-12-15 16:50:57 发布

原创最新推荐文章于 2025-12-15 16:50:57 发布 · 367 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #文档理解 #自监督学习 #程序那些事 #AIGC #人工智能 #数据中心

新型预训练任务实现更好的文档理解

在数字时代，文档以前所未有的速度生成和分发，自动理解文档变得至关重要。考虑从发票中提取付款信息或数字化历史记录等任务，其中布局和手写笔记在理解上下文方面发挥着重要作用。这些场景突显了文档理解的复杂性，不仅需要识别文本，还需要解释视觉元素及其空间关系。

DocFormerv2：理解文档的本地特征

在今年的人工智能促进协会会议（AAAI 2024）上，我们提出了名为DocFormerv2的模型，它不仅能阅读文档，还能理解它们，以模仿人类理解的方式理解文本和视觉信息。

与前辈不同，DocFormerv2采用基于transformer的架构，擅长捕捉文档中的本地特征——小而具体的细节，如字体样式、段落排列方式或图片与文本的放置位置。这意味着它可以比先前模型更准确地识别布局元素的重要性。

创新的自监督学习任务

DocFormerv2的一个突出特点是使用自监督学习，这是当今许多最成功AI模型使用的方法。自监督学习使用未标注数据，能够在巨大的公共数据集上进行训练。

对于DocFormerv2，除了标准的掩码标记预测外，我们还提出了两个额外任务：标记到行预测和标记到网格分配。这些任务旨在加深模型对文档中文本与其空间排列之间复杂关系的理解。

标记到行任务

标记到行任务训练DocFormerv2识别文本元素如何在行内对齐，赋予超越单纯文字的理解，包括文本在文档中出现的流程和结构。这种直觉基于，表单中的键值预测或视觉问答所需的大部分信息通常位于文档的同一行或相邻行。

标记到网格任务

语义信息在文档不同区域之间变化。例如，财务文档可能在顶部有页眉，中间有可填写信息，底部有页脚或说明。准确理解文档需要识别其内容如何在特定的视觉布局和结构中组织。标记到网格任务将文本语义与其在文档中的位置（视觉、空间或两者）配对。

目标任务和影响

在涵盖各种文档理解任务的九个不同数据集上，DocFormerv2优于先前同类规模的模型，甚至比大得多的模型表现更好——包括一个比DocFormerv2大106倍的模型。由于文档文本是使用OCR模型提取的，这些模型确实会产生预测错误，我们还显示DocFormerv2比其前辈更能抵抗OCR错误。

我们训练DocFormerv2的一项任务是表格VQA，这是一个具有挑战性的任务，模型必须回答关于表格的问题（以图像、文本或两者作为输入）。DocFormerv2比次佳模型实现了4.3%的绝对性能提升。

但DocFormerv2也显示出比其前辈更多的定性优势。因为它经过训练能够理解本地特征，当被问到诸如"这些站点中哪些在呼号中没有’k’？"或"有多少学校服务于克利夫兰罗马天主教教区？"等问题时，DocFormerv2能够正确回答。

为了展示DocFormerv2的多功能性和泛化能力，我们还在场景文本VQA上进行了测试，这是一个与文档理解相关但不同的任务。再次，它显著优于同类规模的前辈。

虽然DocFormerv2在解释复杂文档方面取得了重大进展，但仍有几个挑战和令人兴奋的机会，如教模型处理多样化的文档布局和增强多模态集成。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）