0 摘要
自动文档布局分析是认知计算和处理的关键步骤,它从文档图像中提取信息(如特定领域知识库的创建,图表和图像理解,从表格中提取结构化的数据等)。即使在过去几年中在这个领域取得了一些进展,但是挑战仍然存在:准确地将检测内容分类到语义上有意义的类别中。随着移动设备和云服务的普及,对数据使用既快速又经济的方法的需求已成为现实。在本文中,我们提出了一种基于卷积神经网络的文本,图形和表格的自动文档布局分析的方法。我们利用在文本和表格块中观察到的固有一维图案来减少从二维文档图像到一维签名的维度分析,显着提高整体性能:我们提供了更快的执行时间和更紧凑的数据使用而不会造成损失。与传统的二维CNN方法相比,总体准确度更高。
1 介绍
文档是许多不同认知过程(如知识库创建,OCR,图形理解,文档检索等)中非常重要的信息来源。 从文档中提取信息的关键步骤是布局分析,其中包括识别和分类感兴趣的文档图像区域。
在文献中,已经提出了许多用于文档图像布局分析的方法,并且根据文献[11],它们可以分为三种不同的方法:
(i)基于区域或块的分类方法[21,17];
(ii)基于像素的分类方法[14,13];
(iii)连接组件分类方法[6,20,1]。
基于区域或块的分类的方法通常将文档图像页面分割成文档区域,然后将它们分类到相应的语义类别。基于像素的分类方法考虑每个单独的像素,并使用分类器来生成带有区域假设的标记图像。连接组件方法使用本地信息来创建对象假设,并进一步检查,组合和提炼,最后进行分类。
当涉及到图像分类时,卷积神经网络已经在许多不同领域被广泛应用,包括文档分析[9,8]。然而,CNN固有的需要非常密集计算负担通常会在一些应用中被限制使用,比如需要低内存和快速处理的文档存储和检索的应用。[3,4]提出了减少文件分析的计算负担的方法,使用投影来识别图像块,但不受益于使用一维卷积体系结构的CNN的鲁棒性。这种方法为基于CNN的文档分析方法创造了许多机会,降低了计算成本和数据使用量,同时又不降低预期的准确性。
在本文中,我们提出了一种基于块的分类方法,它由三个阶段组成:
i)预处理文档输入图像并将其分割成内容块;
ii)使用它们的垂直和水平投影来训练文本,图像和表格多分类的CNN模型;
iii)使用训练完的CNN模型分析新的文档布局。
我们的主要贡献是:提出了一种用于结构化图像文件的快速自动布局检测的一维CNN方法。 和二维CNN模型比较,结果显示,我们的方法和它有着相同的准确度,但是降低了计算成本和数据使用量。 例如,我们的方法对于移动设备中的应用而言是有用的,因为其计算成本低以及在云服务中,只需要发送/接收紧凑的一维数据而受益。
2 方法
文档图像布局分析的方法流程图如图1:从把文档图像分割成内容块到最后分类。
2.1 分割文档图像中的内容块
在我们的方法中执行的第一步是将每个文档图像页面分割成内容块,如图2所示。将一张页面被转换成灰度图像(见图2a),然后通过[21]检测高度包含信息的区域。该算法在水平和垂直两个方向上都被应用,并且使用运算符AND来合成得到的二值图像,如图2b所示。接下来,在生成的二值图像上执行2次3*3的扩张操作(参见图2c),创建内容斑点。
最后,我们迭代检测二值图像中最大的连接组件,并将其表示为内容块。 检测过程继续进行,直到在图像中找不到更多连接的组件。 图2d显示了最终结果。
2.2 分类文档图像中的内容块
一旦文档图像被分割成内容块,我们使用CNN模型将它们分为三个不同的类别:文本,表格和图像。 在本文中,我们实际上实现了两种不同的CNN体系结构:一个用于不同计算机视觉问题的2D卷积网络(作为基准模型);以及本文提出的快速1D卷积网络,它使用一维预测来提供非常相似的结果,并且数据使用和处理时间更少。
本文中使用的CNN体系结构受到VGG体系结构[18]的启发,由许多负责计算卷积特征的卷积层组成,其次是一些