表格检测中无标签数据的弱监督边界框提取
1. 引言
在数字化文档的目标检测领域,与许多其他机器学习应用一样,如何让模型对未见过的数据具有良好的泛化能力是一个亟待解决的重要问题。同时,为了能公平地比较不同的方法,我们需要一个包含足够数据和多样类别的数据集,以增加方法的挑战性。历史文档就是这类数据集的一个合适例子。
近年来,以数字格式保存和分析历史文档已成为历史学家的一项重要任务。大多数历史文档存在损坏情况,且结构复杂或不常见,这就需要新颖或定制的检测方法。检测历史学家感兴趣的排版特征,不仅能为研究人员在访问文档集合时提供更有针对性的搜索能力,还能促进对文献或文本随时间变化的大规模研究。
本文首先聚焦于历史科学印刷文档中频繁出现的信息表格这一视觉特征,然后提出一种通过弱监督进行边界框提取的方法。
科学历史学家长期以来一直强调视觉证据对于科学证明交流的重要性。表格为科学家提供了一种以易于理解的方式组织信息的新方法,有助于提高信息交流的速度和可靠性,并建立相关思维的新协议。尽管如今我们认为表格在任何科学交流中都很自然,但知识的排版组织过程在历史上是多样且复杂的。大规模检测和研究表格的能力有助于我们更好地理解这种关键科学交流形式的起源和演变。
在历史科学印刷品中识别表格面临一些独特挑战。表格通常具有行列结构的单元格矩阵形式,但布局存在一定差异,历史印刷品中的表格尤其如此。此外,表格还会与许多其他具有相似排版特征的视觉元素一同出现,如图表、地图、插图和装饰性元素(如页眉)。
为了应对这些挑战,我们在基于机器学习的图像检测方法的最新进展基础上,采用了基于卷积神经网络(CNN)的模型进行表格检测,并进行了一些定制。为了提高可靠性和准确性