基于Faster R-CNN的文本检测方法的无锚区域候选网络
摘要
由于IoU和真实文本框之间的匹配标准,基于Faster R-CNN和SSD的锚机制被认为在场景文本检测中不够有效。为了更好地覆盖各种情形的场景文本实例,需要手动设计各种比例尺,纵横比和定向的锚,这使得基于锚的方法复杂且效率低下。在本文中,我们提出了一种新的无锚区域候选网络(Anchor-Free Region Proposal Network,AF-RPN)。该网络通过以Faster R-CNN为基础的RPN(Region Proposal Network, RPN)解决上述问题。 AF-RPN与原始RPN和FPN-RPN (Feature Pyramid Networks -Region Proposal Network)相比,可以摆脱复杂的锚设计,在大规模COCO-Text数据集上实现更高的召回率。由于提供了高质量的候选文本,我们采用基于Faster R-CNN的两阶段文本检测方法实现了ICDAR-2017 MLT,ICDAR-2015和ICDAR-2013文本检测基准测试的(只进行规模和单模(ResNet50)测试)最好结果。
1 引言
最近,由于对许多基于内容的视觉智能应用的需求不断增长,如图像和视频检索、场景理解和目标定位,场景文本检测在计算机视觉和文档分析领域引起了广泛关注[Shahab et al., 2011; Karatzas et al., 2013; Karatzas et al., 2015] 。 然而,由于颜色、字体、方位、语言和比例等文本变化的多样性,极其复杂和类似于文本的背景以及由诸如非均匀照明,低对比度,低分辨率和遮挡的图像捕获引起的一些失真和伪像 ,自然场景图像中的文本检测仍然是一个未解决的问题。
目前,随着深度学习的快速发展,基于最新卷积神经网络(CNN)的目标检测框架如Faster R-CNN [Ren et al., 2015]和SSD [Liu et al., 2016] 已被广泛用于解决文本检测问题。与传统的MSER [Matas et al., 2002] 或SWT [Epshtein et al., 2010] 等基于自底向上的文本检测方法相比,它表现更好。然而,Faster R-CNN和SSD由于其锚(在SSD中被称为默认框)机制被证实对于文本检测不够灵活[He et al., 2017]。 在Faster R-CNN和SSD中锚被用作参考框来预测相应的候选区域或目标,并且每个锚点的标签由它的与真实文本框交叉相交(IoU)重叠来确定[Ren et al., 2015]。如果我们想要检测一个目标,至少应该有一个锚点与这个目标有足够高的IoU重叠。 因此,为了实现高召回率,应该设计具有不同尺度和形状的锚,以覆盖图像中物体尺度和形状的变化。由于场景文本实例在尺度,纵横比,特别是方向上的变化比一般物体的变化更大,所以它需要更复杂的锚设计,即更多的尺度,纵横比和方向[Zhong et al., 2017; Liao et al., 2016; Ma et al., 2017; Liu and Jin, 2017],这使得基于锚的方法变得复杂和低效。 最近,在一些文本检测方法[He et al., 2017; Zhou et al., 2017] 中借用了DenseBox [Huang et al., 2015]的想法来克服这个问题。它使用全卷积神经网络(FCN)[Long et al., 2015] ,通过图片的位置和尺度,直接输出所有相关文本实例的像素级的文本分数和边框。这些方法虽然更灵活一些,但功能受到影响。 例如,他们无法稳健地检测长文本或大文本实例,这在“多语言场景文本检测”场景中经常出现[Nayef et al., 2017],因为检测器可以处理的文本实例的最大的尺度是有限的由所使用的卷积特征映射的接受域(RF)大小决定。
为了克服上述问题,我们建议将DenseBox的智能“无锚”思想融入到Faster R-CNN 中。 具体而言,我们提出了一种新的无锚区域候选网络(AF-RPN)来替代原有的基于锚点的RPN,以便我们的文本检测器可以同时具有高度的灵活性和高性能。如图1所示,特定卷积特征图中的每个像素可被映射到原始图像中的点(以下称为滑动点)。 对于位于文本核心区域中的每个滑动点(图1(b)中的红色点),AF-RPN直接预测从它到相关文本实例的边框顶点的偏移量(图1(c))。这样,AF-RPN可以直接以无锚方式直接生成高质量的候选,从而摆脱复杂的手工锚设计。 此外,AF-RPN中滑动点的标签定义比原始RPN中基于IoU的锚定标签定义容易得多,我们只需要确定滑动点是否在任何真实文本框的核心区域内。与基于DenseBox的文本检测器相比,基于Faster R-CNN的文本检测器可以更有效地处理长文本或大文本实例。这是因为第二阶段Faster R-CNN中的ROI池化算法可以显着扩大每个提议的池化特征的大小,这不仅可以提高长文本实例的边框回归精度,还可以提高文本/非文本分类的准确率。 此外,与DenseBox不同,我们让AF-RPN以缩放友好的方式从特征金字塔网络(FPN)的多尺度特征地图中提取文本提案[Lin等,2017],以便AF-RPN在文字尺度上更加稳健 。 由于这一点,我们的文本检测器可以实现卓越的文本检测性能,而只需进行单一测。
图1
大量的实验表明,作为一种新的区域候选生成方法,AF-RPN可以比原始RPN [Ren et al., 2015]和FPNRPN[Lin et al., 2017]在大型COCO文本[Veit et al., 2016] 数据集上取得更高的召回率。 由于高质量的文本候选,我们基于R-CNN的两阶段快速文本检测方法即AF-RPN + Fast R-CNN在ICDAR-2017 MLT [Nayef et al