常用的表格检测识别方法-表格区域检测方法（上）

原创

于 2023-05-18 12:13:33 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #计算机视觉

本文概述了表格检测识别领域的历史和发展，特别是深度学习方法的使用，如可变形CNN在DeCNT模型中的应用，以及端到端的检测模型如DeformableDETR。这些方法显著提高了表格检测的精度和效率，尤其在处理不同尺度和变换的表格时。此外，半监督学习也被引入以利用未标记数据进行更高效的训练。

常用的表格检测识别方法

表格检测识别一般分为三个子任务：表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务，从传统方法、深度学习方法等方面，综述该领域国内国外的发展历史和最新进展，并提供几个先进的模型方法。

3.1 表格区域检测方法

表格检测已经被研究了一段较长的时间。研究人员使用了不同的方法，可以分为如下：

1.基于启发式的方法

2.基于机器学习的方法

3.基于深度学习的方法

基于启发式的方法，主要用于20世纪90年代、2000年代和2010年初。他们使用了不同的视觉线索，如线条、关键词、空间特征等，来检测表格。

Pyreddy等人提出了一种使用字符对齐、孔和间隙来检测表格的方法。Wang等人使用了一种统计方法来根据连续单词之间的距离来检测表线。将水平连续的单词与垂直相邻的线分组起来，提出候选表实体。Jahan等人提出了一种使用单词间距和线高的局部阈值来检测表格区域的方法。

Itonori提出了一种基于规则的方法，通过文本块排列和规则行位置来定位文档中的表格。 Chandran和Kasturi开发了另一种基于垂直和水平线的表格检测方法。Wonkyo Seo等人使用连接点（水平线和垂直线的交点）检测进行进一步处理。

Hassan等人通过分析文本块的空间特征来定位和分割表格。Ruffolo等人介绍了PDF-TREX，这是一种用于单列PDF文档中的表格识别的启发式自下而上的方法。它使用页面元素的空间特征来将它们对齐和分组为段落和表格。Nurminen提出了一套启发式方法来定位具有公共对齐的后续文本框，并确定它们作为一个表格的概率。

Harit等人提出了一种基于唯一表起始和尾部模式识别的表格检测技术。Tupaj等人提出了一种基于OCR的表格检测技术。该系统基于关键字搜索类似表格的行序列，上述方法在具有统一布局的文档上效果比较好。

国内的表格区域检测研究起步较晚，启发式方法较少。其中，具有代表性的是Fang等人提出的基于表格结构特征和视觉分隔符的方法。该方法以PDF文档为输入，分四步进行表格检测：PDF解析，页面布局分析，线条检测和页面分隔符检测，表格检测。在最后的表格检测部分中，通过对上一步检测出的线条和页面分隔符进行分析得到表格位置。然而，启发式规则需要推广到更广泛的表格种类，并不真正适合通用的解决方案。因此，开始采用机器学习方法来解决表检测问题。

基于机器学习的方法在2000年代和2010年代很常见。

Kieninger等人通过对单词片段进行聚类，应用了一种无监督的学习方法。Cesarini等人使用了一种改进的XY树监督学习方法。Fan等人使用有监督和无监督的方法进行PDF文档中的表格检测。Wang和Hu 将决策树和SVM分类器应用于布局、内容类型和词组特征。T. Kasar等人使用结点检测，然后将信息传递给SVM分类器。Silva等人在视觉页面元素（隐马尔可夫模型）的顺序观察上应用联合概率分布，将潜在的表线合并到表中。Klampfl等人比较了两种来自数字科学专题文章的无监督表识别方法。Docstrum算法应用KNN将结构聚合成线，然后使用线之间的垂直距离和角度将它们组合成文本块。该算法是在1993年设计的，比本节中提到的其他方法要早。

F Shafait 提出了一种有用的表识别方法，该方法在具有相似布局的文档上表现良好，包括商业报告、新闻故事和杂志页面。Tesseract OCR引擎提供了该算法的一个开源实现。

随着神经网络的兴趣，研究人员开始将它们应用于文档布局分析任务中。最初，它们被用于更简单的任务，如表检测。后来，随着更复杂的架构的发展，更多的工作被放到表列和整体结构识别中。

A Gilani [《Table detection using deep learning》]展示了如何使用深度学习来识别表格。文档图片最初是按照文中提出的方法进行预处理的。然后，这些照片被发送到一个区域候选网络中进行表格测试，然后是一个完全连接的神经网络。该方法对各种具有不同布局的文档图片非常精确，包括文档、研究论文和期刊。

D Prasad [《An approach for end to end table detection and structure recognition from image-based documents》]提出了一种解释文档图片中的表格数据的自动表格检测方法，主要需要解决两个问题：表格检测和表格结构识别。使用单一的卷积神经网络（CNN）模型，提供了一个增强的基于深度学习的端到端解决方案，用于处理表检测和结构识别的挑战。CascadeTabNet是一个基于级联掩码区域的CNN高分辨率网络（Cascade mask R-CNN HRNet）的模型，可以同时识别表区域和识别这些表格中的结构单元格。

SS Paliwal [《Tablenet: Deep learning model for end-to-end table detection and tabular data extraction from scanned document images》]提出了一种新的端到端深度学习模型，可用于表格检测和结构识别。为了划分表格和列区域，该模型使用了表格检测和表结构识别这两个目标之间的依赖关系。然后，从发现的表格子区域中，进行基于语义规则的行提取。

Y Huang [《A yolo-based table detection method》]描述了一种基于YOLO原理的表格检测算法。作者对YOLOv3提供了各种自适应改进，包括一种锚定优化技术和两种后处理方法，以解释文档对象和真实对象之间的显著差异。还使用k-means聚类进行锚点优化，以创建更适合表格而不是自然对象的锚点，使他们的模型更容易找到表格的精确位置。在后处理过程中，将从投影的结果中删除额外的空白和有噪声的页面对象。

L Hao [《A table detection method for pdf documents based on convolutional neural networks》]提供了一种基于卷积神经网络的PDF文档中检测表格的新方法，这是目前最广泛使用的深度学习模型之一。该方法首先使用一些模糊的约束来选择一些类似表的区域，然后构建和细化卷积网络，以确定所选择的区域是否为表格。此外，卷积网络立即提取并使用表格部分的视觉方面特征，同时也考虑了原始PDF文档中包含的非视觉信息，以帮助获得更好的检测结果。

SA Siddiqui [《Decnt: Deep deformable cnn