一、论文翻译
Abstract
图表以一种以可视化形式呈现数据的有效交流工具。有许多研究致力于图表挖掘,即对图表进行自动检测、提取、分析,以再现出用于创建图表的原始数据,并以表格形式展现数据。图表挖掘为下游任务得以使用图表数据打下基础。本篇论文全面调查了图表挖掘过程的各个步骤所用到的方法,例如:(i)从文档中自动提取图表;(ii)多板块图表处理;(iii)自动图像分类器以大规模收集图表图像;(iv)针对常见图表类型和特定图表类型,从图表图像中自动提取数据;(v)图表挖掘的应用;(vi)构建训练与评估数据集的方法。最后,我们总结了文献中的主流发现,并为数据挖掘领域未来研究提供指引。
1 Introduction
数据可视化能高效交流数据。许多情况下,通过文本或表格难以传达的数据可以通过数据可视化变得容易表达。大量文献致力于分析数据可视化以便更高效使用数据,本文致力于自动提取、分类、理解特定类型数据可视化的技术,即图表。
图表是一种抽象几何图,它规则简单但是表达能力强,能在多个领域广泛应用。在学术论文中,图表能被用作强力的总结性工具,能让研究者快速理解实验结果。图表通常是论文主体中所描述的事实的补充说明,但它们的数据通常无法以其他格式被利用。图表在文档中无处不在,对于自动处理图表的研究致力于寻找一种能有效利用图表中所蕴含的丰富量化信息的方法。
本文专注于过去15年已发表的自动图表分析方法和它们的应用。
2 Extracting chart from documents
在高度结构化文档中,图表一般包含在插入的图片中。我们定义 作为给定可视化图表及其标签、描述性信息的容器。接下来我们研究从高度结构化的文档中提取包含图表的
的方法。(文档中插入的 figure 除了包含chart,还会包含标题、描述图表意义的文本等信息,所以figure与chart并不等同)
对于数字生成文档(pdf这类矢量文档)和扫描文档(图片形式的像素文档),人们提出了不同的方法,图表提取过程能被分为两个步骤:文档分割、图片与描述信息链接。第一步定位并提取候选的 和描述性文本,第二步将候选的
与它对应的描述性文本链接在一起。

有多种度量被用于评估图片提取系统。基于区域(region-based)的度量,例如目标框交集、候选框交集、交并比IOU已被用于将提取到的候选图片与ground truth进行匹配,然后这些度量的阈值和1-to1贪心匹配被用来确定最终的召回率和精确度指标。最近的图片提取系统,例如PDFFigures 2(Pdffigures 2.0: Mining figures from research papers)、PDFFigCapX(Figure and caption extraction from biomedical documents)、DeepFigures(Extracting scientific figures with distantly supervised neural networks),PDFFigures 2和DeepFigures都被研究者用于从学术论文中大规模提取图片。
2.1 document segmentation
文档分割方法可被分为自顶向下、自底向上两类。第一类方法从完整页面开始,将页面划分为多个区域。第二类方法通过对文档中的图像和文本单元进行分组来构建区域。基于输入文档的格式不同,这些方法可以分为:基于像素(raster-based)、基于矢量(vector-based)、混合类型。目前的研究趋势聚焦于矢量文档。但是,矢量图能被转化为像素图像,从而也能使用基于像素的方法。
2.1.1 Raster-based segmentation
传统方法采用启发式方法将页面按照自顶向下或者自底向上的方式分割成均匀区域,然后将这些区域归类为文本或者图片(类似将若干个像素视作一个区域,然后对区域归类)。最近的方法采用深度神经网络来从文档图像中直接定位、提取和分类图像区域(常用方式是借助CNN卷积提取图像的高层次特征,然后检测出chart和caption所在区域)。基于显著性的注意力模型可以优化一般图片的检测,但是可能在具有较大空白区域或者图表显著性较低时检测效果下降(显著性较低可以理解为图表的边缘不明显,所以检测难度较高)。围绕图形区域的文本区域可以被视为描述性信息,而与图片区域重叠的文本区域被视作图片内部的文本元素。
2.1.2 Vector-based segmentation
(需要先理解矢量图的性质,矢量图中并没有像素,不管是几何图形还是文字,都通过一系列的数学公式来表示)
这类方法仅使用指令(例如PDF运算符)分析来从矢量文档中提取图片,这是具有挑战性的,因为与图片相关的几何运算符可能与其他运算符混合,没有明显分界,例如能被用于表示单词、行或段落的文本操作符,很难区分几何运算符和文本运算符(因为这些运算符都是数学公式)。PDF文档是基于状态的,这需要通过自定义解析器进行跟踪,并使用指令来渲染基本元素(文本、路径、像素图片),这些状态相关的操作可以转化为自包含对象(是一个独立的、可重用的单元,具有高度灵活性和可扩展性)。
启发式方法可以用于估计给定页面上的图片数量,然后使用不同的方法查找表示图片的PDF操作符,其他的几何元素例如logo或表格必须使用启发式方法或者机器学习方法从图片上分离,最后通过文本操作符直接定位描述性文本。
2.1.3