[论文阅读]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection

最新推荐文章于 2025-11-25 05:13:18 发布

原创

最新推荐文章于 2025-11-25 05:13:18 发布 · 7.1k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉

本文提出一种用于任意形状文本检测的深度关系推理图网络(DRRG)，通过建立局部图和深度关系推理，实现端到端的文本检测。该方法在多个数据集上表现优异，特别是在Total-Text、CTW1500和TD500数据集上。

[论文阅读]Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
用于任意形状文本检测的深度关系推理图网络

文章收录于2020 CVPR
[论文地址]https://arxiv.org/abs/2003.07493
[代码地址]https://github.com/GXYM/DRRG

文章目录

摘要

本文针对形状文本检测提出了一种新的统一关系推理图网络。局部图(local graph)建立起了基于CNN的text proposal模型和基于GCN(Graph Convolutional Network)的深度关系推理网络之间的关系，使模型可以端到端训练。

简介

目前一些方法，例如TextSnake[17]和CRAFT[1]为了解决任意形状文本检测，采用了Connected Component (CC)策略（一些列的组件定位字符，最后合并组件）。这样的缺点就是，无法获得文字组件之间的更丰富的关系，从而无助于文本实例的划分。

对于CC策略来讲，一项重要的工作就是划分文本实例。现有的方法常采用：预定义规则(pre-defined rules)、链接映射(link map)、嵌入映射(embedding map)。对于长文本和弯曲文本，一般来讲，链接映射和嵌入映射比预定义规则更加鲁棒。

链接映射与嵌入映射的方法大多基于CNN，且CNN不适合处理这些独立的组件（非欧几里得数据），即不能够从两个不相邻的组件中学习相互之间的关系。

而这些非欧几里得数据可以被表示为图，如图1所示，本文选择一个文本组件作为一个节点，选择一个节点作为中枢，将中枢周围的节点连起来形成局部图。局部图（节点之间的边缘）中包含的上下文信息可为估计枢纽节点与其他节点之间的链接可能性提供信息。
在这里插入图片描述

本文首先将每一个文本实例，切分为文本组件。使用基于CNN的text proposal network预测这些文本组件的几何属性（高、宽、方向），然后利用这些几何属性采用了图卷积网络来执行深度关系推理，从而对这些组件进行分组聚合。

方法

概述

首先，通过基于CNN的text proposal network利用共享特征来估计文本组建的几何属性；然后局部图可以大致建立不同文本组建的链接；然后使用深度关系推理网络将进一步推断出文本组件与其相邻组件之间的链接可能性；最后根据推理结果将文本组件聚合为整体的文本实例。

其网络框架如图2所示；文本组件提议网络(text component proposal network)和深层关系推理图网络共享卷积特征，并且共享卷积使用VGG-16 和FPN [12]作为主干，如图3所示。

在这里插入图片描述

文本组件预测

如图4所示，(a)展示了一系列的文本组件，每个文本组件 $D$ 由(x,y,h,w,sin $\theta$ ,cos $\theta$ )组成。其中 $h$ 为文本组件的高度，由(c )图中的h1和h2两部分组成。 $w$ 则是根据 $h$ 的大小确定的。
(b)中展示了文本组建的中心域，为了确定文本中心域(text center region 记为TCR)与文本组件的方向，本文采用了[17]中的方法来计算文本域的head和tail，如图4(a)中黑色箭头所示。

在这里插入图片描述
本文根据下列公式确定图4(a)中的上下两组点 $\left\{tp0,tp1,...,tpi,...,tpn\right\}$ 和 $\left\{bp0, bp1, ..., bpi, ..., bpn\right\}$ 。

$p=\sum_{i=0}^{n} \sin \left(v_{i}\right), v_{i} \in V$
其中 $\left\{tp0 − bp0,...,tpi − bpi,...,tpn − bpn\right\}$ ,向量 $v_i$ 的角度表示文本分量的方向 $θ$

TCR是通过缩小文本域(text region 记为TR)得到的，其计算步骤：1. 计算文本中心行 2.将中心行两端缩小0.5 $w$ 像素，使网络更容易分离相邻的文本实例并降低NMS的计算成本。 3.将文本中心行高度扩展0.3 $h$ 。

再提取共享特征之后，通过两个卷积层来计算CR(Classification and Regression)，即文本组件的几何属性, $R=\operatorname{conv}_{1 \times 1}\left(\operatorname{conv}_{3 \times 3}\left(F_{\text {share}}\right)\right)$
其中CR是一个 $H * W * 8$ 大