智能文档解析综述：结构化信息提取的技术、挑战与前景

AIGCmagic社区

已于 2024-12-06 18:32:28 修改

阅读量4.2k

点赞数 23

分类专栏： AI多模态文章标签：人工智能

于 2024-12-06 18:31:13 首次发布

本文链接：https://blog.youkuaiyun.com/AIGCmagic/article/details/144295985

版权

综述论文：https://arxiv.org/abs/2410.21169

摘要

文档解析对于将非结构化和半结构化文档（如合同、学术论文和发票）转换为结构化、机器可读的数据至关重要。通过从非结构化输入中提取可靠的结构化数据，文档解析为众多应用提供了极大的便利。尤其是在大型语言模型的最新进展中，文档解析在知识库构建和训练数据生成中扮演着不可或缺的角色。本综述全面回顾了当前文档解析的现状，涵盖了从模块化管道系统到由大型视觉语言模型驱动的端到端模型等关键方法。详细探讨了版面检测、内容提取（包括文本、表格和数学表达式）以及多模态数据集成等核心组件。此外，本文还讨论了模块化文档解析系统和视觉语言模型在处理复杂布局、整合多个模块以及识别高密度文本时所面临的挑战，并强调了开发更大和更多样化的数据集的重要性，同时概述了未来的研究方向。

一. 介绍

随着数字化转型的加速，电子文档在各个行业中逐渐取代纸质文档，成为信息交换的主要媒介。这一变化显著增加了文档类型的多样性和复杂性，包括合同、发票和学术论文。因此，对高效的信息管理和检索系统的需求不断增加。然而，大量历史记录、学术出版物和法律文件仍以扫描或图像格式存在，这给信息提取、文档理解和增强检索等任务带来了巨大挑战。

为了解决这些挑战，文档解析（也称为文档内容提取）成为了一种关键工具，用于将非结构化和半结构化文档转换为结构化信息。文档解析识别并提取各种文档输入中的文本、公式、表格和图像等元素，同时保留其结构关系。提取的内容随后被转换为Markdown或JSON等结构化格式，实现与现代工作流程的无缝集成。

文档解析对于与文档相关的任务至关重要，重新定义了信息的存储、共享和应用方式。它为各种下游流程提供了基础，包括在各个实际领域中开发检索增强生成（RAG）系统，以及纸质材料的电子存储和检索库的自动化构建。此外，文档中仍有大量潜在信息尚未充分开发。文档解析技术能够有效提取和组织这些丰富的知识，为下一代智能系统的发展奠定坚实基础，例如训练更专业和强大的多模态模型。

尽管近年来文档解析技术，特别是基于深度学习的技术取得了显著进展，导致文档解析工具的激增和有前景的解析器的出现，但该领域的研究仍面临一些限制。许多关于文档解析的综述已过时，导致流程缺乏严谨性和全面性，技术描述未能捕捉到最新进展和应用场景的变化。此外，高质量的综述通常专注于文档解析中的特定子技术，如布局分析、数学表达式识别、表格结构识别和文档中的图表相关工作，而未提供整个文档解析过程的全面概述。

鉴于这些局限性，非常需要对文档解析进行全面的综述。在本次综述中，我们从整体视角分析文档解析的进展，为研究人员和开发者提供对该领域近期发展和未来方向的广泛理解。本文的主要贡献如下：

全面综述文档解析：系统整合和评估文档解析技术在解析流程各阶段的最新进展。
整合数据集和评估指标：汇总常用的数据集和评估指标，填补文档解析领域现有综述中的空白。
为研究人员和实践者提供整体视角：提供文档解析当前状态和未来方向的整体视角，弥合学术研究与实际应用之间的差距。
新手入门指南：为新手提供指南，帮助他们快速了解该领域的概况并识别有前途的研究方向。

本文的结构如下：第二节概述文档解析的两种主要方法。第三节到第六节详细探讨模块化文档解析系统中使用的关键算法。第七节介绍适用于文档相关任务的视觉语言大模型，重点关注文档解析和OCR。第八节和第九节涵盖文档解析中的数据集和评估指标。第十一节讨论该领域当前的挑战并强调重要的未来方向。最后，第十二节提供简明而深刻的结论。

二. 方法论

文档解析大致可以分为两种方法：模块化流水线（Pipeline）文档解析系统和基于大型视觉语言模型的端到端方法。

2.1 文档解析系统

2.1.1 布局分析

布局检测识别文档的结构元素，如文本块、段落、标题、图像、表格和数学表达式，并确定其空间坐标和阅读顺序。这一基础步骤对于确保内容的准确提取至关重要。值得注意的是，由于数学表达式的复杂性，尤其是内嵌的数学表达式，通常需要单独处理。

2.1.2 内容提取

文本提取：该过程利用光学字符识别（OCR）技术将文档图像转换为机器可读文本。通过分析字符的形状和模式，OCR能够准确识别和处理图像中的文本。

数学表达式提取：在此步骤中，文档区域内的数学符号和结构被检测并转换为标准化格式，如 LaTeX 或 MathML。由于符号的复杂性及其空间排列，这项任务具有独特的挑战。

表格数据和结构提取：表格识别涉及通过识别单元格的布局以及文档图像中行与列之间的关系来检测和解释表格结构。提取的表格数据通常与 OCR 结果结合，并转换为 LaTeX 、HTML等格式以便进一步使用。

图表识别：这一步骤侧重于识别不同类型的图表并提取其基础数据及结构关系。图表中的视觉信息被转换为原始数据表或 JSON 等结构化格式。

2.1.3 关系整合

每个步骤都建立在之前的基础上，确保从文本到数学表达式、表格和图表的顺畅流程，同时利用先进的识别技术将文档内容转换为结构化的机器可读格式。一旦提取出各个内容元素，关系整合步骤将它们组合成一个统一的结构。此步骤利用布局检测过程中识别的空间坐标，确保元素之间的空间和语义关系得到保留。通常应用基于规则的系统或专门的阅读顺序模型来维护内容的逻辑流。

2.2 端到端方法与多模态大型模型

虽然传统的模块化文档解析系统在特定领域中表现有效，但其架构常导致在不同文档类型中的联合优化和泛化能力受限。多模态大型模型的最新进展，特别是视觉语言模型（VLMs），提供了有前景的替代方案。像 GPT-4、Qwen、LLaMA 和 InternVL 这样的模型可以同时处理视觉和文本数据，促进文档图像到结构化输出的端到端转换。由于文档图像带来的独特挑战——如密集文本、复杂布局和视觉元素的高度多样性——专门的大型模型如 Nougat、Fox 和 GOT 应运而生。这些模型在自动化文档解析和理解方面代表了重大进步。

3 布局分析

3.1 布局分析技术简介

对扫描图像的文档布局分析（DLA）的研究始于20世纪90年代。早期研究集中于简单文档结构，通常作为预处理步骤，主要使用基于规则的方法[173–186, 71, 187, 188]或统计技术[189, 190, 178]。

到2000年代，DLA结合了特征工程和机器学习，将任务框定为基于像素的语义分割[191–193]。自2015年以来，深度学习技术，特别是卷积神经网络（CNNs）和Transformers，主导了这一领域，将DLA视为像素级分割问题，并利用视觉特征分析物理布局[194–199, 22]。

此外，图卷积网络（GCNs）被用于建模文档组件之间的关系表示[200, 23, 31, 201, 24, 25]。基于网格的方法[202–204, 26, 27]强调了保持空间结构的重要性。最近的研究还将多种数据源整合到这些模型中[28, 33, 31, 34, 32, 29, 30]。大约在2020年，多模态自然语言处理（NLP）中的自监督预训练影响了DLA研究，促使模型联合整合文本和视觉布局信息进行端到端学习。

3.2 基于视觉特征

早期基于深度学习的文档布局分析（DLA）主要集中于利用文档图像的视觉特征分析物理布局。文档被视为图像，通过神经网络架构检测和提取文本块、图像和表格等元素[194]。

3.2.1 基于CNN的方法

卷积神经网络（CNNs）的引入标志着文档布局分析（DLA）的重大进步。最初设计用于目标检测，这些模型被改编用于页面分割和布局检测等任务。R-CNN、Fast R-CNN 和 Mask R-CNN 对于检测文本块和表格等组件尤其具有影响力[195]。后来的研究改进了区域提议过程和架构，以增强页面对象检测[196]。像全卷积网络（FCN）和 ARU-net 等模型被开发来处理更复杂的布局[197, 198]。

3.2.2 基于Transformer的方法

最近Transformer模型的进展扩展了其在文档布局分析（DLA）中的应用。BEiT（来自图像Transformer的双向编码器表示）受BERT启发，采用自监督预训练来学习稳健的图像表示，擅长提取全局文档特征，如标题、段落和表格[199]。文档图像Transformer（DiT）具有类似Vision Transformer（ViT）的架构，将文档图像分割为小块以增强布局分析。然而，这些模型计算密集且需要大量预训练[22]。最近的研究如[205, 206]也集中于使用Transformers完成基于文档视觉特征的分类任务。

3.2.3 基于图的方法

虽然基于图像的方法在DLA方面取得了显著进展，但它们往往过于依赖视觉特征，限制了对语义结构的理解。图卷积网络（GCNs）通过建模文档组件之间的关系来解决这个问题，增强了布局的语义分析[200, 23, 31]。例如，Doc-GCN改进了对布局组件之间语义和上下文关系的理解[24]。GLAM是另一个重要模型，将文档页面表示为结构化图表，将视觉特征与嵌入的元数据结合以获得卓越表现[25]。

3.2.4 基于网格的方法

基于网格的方法通过将文档布局表示为网格来保留空间信息，这有助于保留空间细节[202–204, 26, 27]。例如，BERTGrid调整BERT以表示布局，同时保持空间结构[26]。VGT模型集成了Vision Transformer（ViT）和Grid Transformer（GiT）模块，以捕捉标记和段落级别的特征。然而，基于网格的方法通常面临参数量大和推理速度慢的挑战，限制了其实际应用[27]。

3.3 融合语义信息

随着文档分析的复杂性增加，仅靠物理布局分析已不再足够。尽管有研究证明，优秀的目标检测模型（如YOLO v8）在一些小语种基于字形的文档布局分析中仍然相对领先，并进行了相关改进[207, 208]，但结合语义信息的文档布局分析方法仍然是一个重要的发展方向。逻辑布局分析需要根据文档元素的语义角色（如标题、图表或页脚）进行分类。随着多模态模型的兴起，结合视觉、文本和布局信息的方法在文档布局分析研究中变得越来越重要。

逻辑布局分析的需求推动了多模态模型的发展，这些模型整合了文本和布局信息以进行更全面的分析。研究通过结合监督学习和预训练的自然语言处理（NLP）或计算机视觉（CV）模型探索了多模态数据的整合。例如，LayoutLM是第一个在单一框架中融合文本和布局信息的模型，使用BERT架构通过文本、位置和图像嵌入捕捉文档特征[28]。

[33]通过结合RoBERTa和GCNs扩展了这一点，以从文本和图像中捕获关系布局信息。[31]引入了多尺度自适应聚合模块以融合视觉和语义特征，生成注意力图以实现更准确的特征对齐。

多模态NLP中的自监督预训练也显著推进了该领域。在预训练期间，模型使用统一的Transformer架构联合处理文本、图像和布局信息，使其能够从各种文档类型中学习跨模态知识。这种方法提高了模型的多样性，要求在不同文档类型和风格中进行微调时的监督最少。

2020年，[34]提出了一个多模态文档预训练框架，该框架端到端编码多页文档的信息，结合文档主题建模和随机文档预测等任务。这个框架使模型能够学习丰富的图像、文本和布局表示。值得注意的工作如UniDoc[32]使用Transformer和ResNet-50架构提取语言和视觉特征，通过门控跨模态注意力机制对齐。

进展包括LayoutLMv2和LayoutLMv3，它们通过优化文本、图像和布局信息的融合来改进LayoutLM。这些模型通过更深的多模态交互和掩码机制提高特征提取，实现更高效和全面的文档分析[29, 30]。此外，LayoutLLM[35]尝试使用大型语言模型整合某些语义信息以完成与文档布局相关的任务。

4 光学字符识别

4.1 文档OCR简介

光学字符识别（OCR）有着悠久的历史，起源于早期计算机的发展。这个概念最早由Tausheck在1929年提出。如今，OCR是计算机视觉和模式识别中的一个关键研究领域，旨在识别视觉数据中的文本并将其转换为可编辑的数字格式，以便进行后续分析和组织。

在20世纪50年代和60年代，OCR研究集中于手写文档识别，如支票处理和邮件分类。在此期间，OCR系统主要使用预处理技术和基于规则或模板匹配的方法。例如，ABBYY OCR的早期版本通过图像二值化、噪声减少和布局分析来通过模板匹配识别字符。

在深度学习出现之前，OCR系统主要依赖特征工程和传统机器学习技术进行字符识别。这些方法通常应用于邮政编码识别、表单处理和银行业务等任务。一个显著的例子是Tesseract OCR，由HP实验室在1984年开发，其早期版本（4.x版本之前）使用了这些技术。

随着OCR技术被整合到各个行业，对更高精度和更广泛适用性的需求不断增加。研究人员因此探索了更先进的OCR应用，包括场景文本识别、多语言识别和文档字符识别。自2010年以来，端到端深度学习算法的发展显著改变了OCR，提高了其效率和应用范围。

OCR通常涉及两个主要阶段：文本检测和文本识别。首先，在图像中定位文本，然后应用识别算法将识别出的文本转换为计算机可读的字符。当OCR同时集成文本检测和识别时，被称为文本定位识别（text spotting）。本节将讨论OCR的这三个关键技术方面。

4.2 文本检测

传统的非深度学习文本检测算法在背景对比度高的简单场景中通常有效。然而，它们常常需要手动调整参数以在不同环境中达到最佳性能，限制了其泛化能力。相比之下，基于深度学习的文本检测算法改进了目标检测和实例分割技术，可以分为四种主要方法：单阶段回归方法、两阶段区域提议方法、基于实例分割的方法和混合方法。

4.2.1 基于回归的单阶段方法

基于回归的方法，也称为直接回归方法，直接从图像中的特定点预测文本框的角坐标或长宽比，跳过了多阶段候选区域生成和后续分类的需要。像YOLO和SSD这样的算法已被改编用于文本检测，并进行了修改以处理文本特定的挑战，如多样的长宽比和方向[36, 37]。例如，CTPN [38]通过垂直位置和横向偏移的回归实现精确的文本行定位。SegLink [209]和DRRG [39]等方法应用回归技术处理不规则文本形状，而傅里叶变换[40]则能够紧凑地表示复杂的文本轮廓。虽然基于回归的方法计算效率高且与深度学习模型集成良好，但在处理模糊边缘和杂乱背景时可能会遇到困难。