Deep Relational Reasoning Graph Network for Arbitrary shape Text Detection
深度关系推理图网络用于任意形状文本检测
摘要
提出了一种新颖的统一关系推理图网络用于任意形状文本检测。在我们的方法中,一个新颖的局部图连接一个文本建议模型(CNN)和一个深度关系推理网络(GCN)使得我们的网络端到端可训练。更具体的说,每一个文本实例将被分成一系列小的矩形组件,小的矩形组件的几何特征(高度,宽度,方向)通过我们的文本建议模型估计。通过几何特征,局部图建立网络可以粗糙的建立不同文本组件之间的联系。为了进一步推理和演绎组件与相邻组件之间相连的可能性,我们采取一个基于图的网络在局部图上执行深度关系推理。实验在公开可用的数据集上证明了方法的state-of-the-art性能。
介绍
由于文本表示形式的限制,先前的工作很难检测任意形状的文本。最近一些方法如TextSnake和CRAFT,尝试通过联通分量方法解决问题。然而这些方法没有深入研究组件之间丰富的关系,对文本组件聚合成为最终的文本实例有帮助。
在基于连通分量的方法中,一个必须的任务是挖掘不同字符或组件区域的合理的关系用于连接他们成为整体的文本实例。现存的方法通常使用预定义规则,link map或embedding map来组合被检测的组件成为文本实例。通常来说,通过可学习的连接关系或嵌入关系来组合文本组件相比于预定义的规则更加健壮,尤其是对于长和弯曲的文本。从我们主要的观察和实验中,深度关系推理用于挖掘这些组件区域之间的稳定关系可以有效的提升弯曲形状文本检测的表现。基于link或embedding的方法通常使用CNNs来推导独立组件之间的连接,但是独立的组件通常是非欧几里得数据,CNNs在处理非欧几里得数据时表现不佳。因此,简单的link map和embedding map对于学习两个不相邻的组件之间的关系是不恰当的。非欧几里得数据可以使用图来表示,所以我们可以将独立地文本组件转换为图。如图1所示,我们将每个文本组件设为一个节点。因此,我们可以搜索一个节点作为中心点,将周围的点与他连接形成一个局部图,在Sec3.3中描述。这是一个共识,图网络有先天优势用于在图上推理节点之间的关系。最近,基于图神经网络的方法在人脸据类,各种任务的全局推理上取得了卓越的表现。深受这些工作的启发,我们采用了一个图卷积网络来执行局部图上的深度推理以演绎组件和相邻组件之间的深度连接可能性用于任意形状的文本检测。
在本篇文章中, 我们提出了一个新颖的利用深度关系推理图网络用于任意形状文本检测。根据CTPN和TextSnake,我们将每一个文本实例分程文本组件,提出了一个文本建议网