像素分类准确率matlab_【论文分享沙龙 | 2020第312期】采用像素聚合网络进行高效、准确的任意形状文本检测...-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39721000/article/details/112731751

论文分享沙龙2020第31期

分享人：中国矿业大学硕士苏宇辰

研究方向：计算机视觉 | 场景文本检测与识别

论文标题：

Effificient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network(采用像素聚合网络进行高效、准确的任意形状文本检测)

论文来源：ICCV2019

论文下载：https://arxiv.org/abs/2007.13816

1. 摘要文本检测两个挑战：1.速度和准确率2.建模任意形状文本最近，一些方法提出用于应对任意形状文本检测，但是在整个pipeline中极少考虑速度。提出了一种高效准确的任意形状文本检测器使用一个计算成本低的分割head和一个可学习的后处理过程。称作像素聚合网络。更具体的说，分割头由特征金字塔增强模块Feature Pyramid Enhancement Module(FPEM)和特征融合模块Feature Fusion Module(FFM)。FPEM是一个级联u型网络,提取多级信息。FFM将FPEM得到的不同层级的特征合称为一个最终的特征图用于分割。可学习的后处理过程由Pixel Aggregation(PA)完成，通过预测相似度向量精确聚合文本像素。2.介绍目前的文本检测方法可以分为基于anchor的和anchor-free的方法。有些采用了繁重的架构和复杂的pipeline获得高的准确率，其他采取了简单的pipeline获得一个速度和效率上的平衡。基于Anchor的文本检测器通常灵感来源于目标检测器如Faster R-CNN，SSD。TextBoxes直接改进了SSD的卷积核的anchor尺度和形状处理长宽比较大的文本。TextBoxes++通过回归四边形代替回归水平的边框用于多方向文本检测。RRD利用了旋转不变性和敏感的特征用于文本分类和回归从两个分支更好的预测长文本。SSTD生成text attention map增强文本区域特征图并且抑制背景信息，有利于小文本。基于Faster RCNN RRPN采用了旋转区域proposals检测文本。Mask Text Spotter和SPCNet将文本检测视为实例分割问题，使用Mask RCNN用于任意形状文本检测。大部分都比较复杂。Anchor-free的文本检测器将文本检测视为分割问题，通常通过全卷积神经网络构建。PixelLink进行text/non-text预测和links预测。EAST和DeepReg采用FCNS预测收缩的文本得分图执行逐像素的回归，通过nms进行后处理。TextSnake用圆盘和文本中心线建模文本实例，可以表示任意形状文本。PSENet用FCN预测多尺度的文本实例，采取一个递进制度扩张算法重建整个文本实例。简单地说，anchor-free方法的主要查完别是文本标记的过程和后处理过程。然而只有TextSnake和PSENet与哦那与检测弯曲文本，而他们的模型都很繁重，在推理阶段运行速度较慢。实时文本检测：需要快速生成高质量的文本预测。EAST直接采用FCNs预测score map和坐标，通过简单的NMS，通道简洁，速度快。MCN将文本检测问题视为基于图的聚类问题，不使用nms生成bounding box，可以在gpu并行执行，但这些方法不能检测弯曲文本实例。3.方法PAN效率和准确率都很高。主要包括2个步骤1)通过segmentation network预测text regions，kernels，similarity vectors2)从预测的kernels重建完整的文本实例。

为了高效，我们需要减少上述两个步骤的时间。首要的是，一个轻量级的backbone用于分割。本文中，我们使用ResNet18作为PAN的默认架构。然而，轻量级的网络感受野小，表现能力差。为了弥补这一缺陷，我们提出了一个低计算成本的分割head，由FPEM和FFM模块组成。FPEM是一个u型模型使用可分离的卷积层构建，因此FPEM能够增强不同尺度的特征通过融合高层和低层信息。除此之外，FPEM是可级联的，使得我们可以在其后面增加FPEMS来补偿轻量级模型的深度。为了在分割之前获得低层次和高层次的语义信息，在最终分割之前，引入FFM融合从FPEMS获取的不同深度的特征。除此之外，为了精确地重建文本实例，提出了一种可学习的后处理方法，成为像素聚合，可以通过预测相似度向量引导像素到正确的内核上。

总结，贡献分为三点，1.提出了一个轻量级分割neck由FPEM和FFM组成可以提升网络的特征表示能力。2.提出了一个像素聚合PA，文本相似度向量可以通过网络学习用于选择性的聚合靠近文本核的像素。最后，所提出的方法实现了最优的表现在弯曲文本数据集上。第一个可以实时检测弯曲文本的算法。

FPEM模块由两部分组成，上尺度增强和下尺度增强。上尺度增强作用于输入特征金字塔。增强迭代作用于步长为32 16 8 4的特征图。在降尺度增强时，输入由上尺度增强生成，增强从步长为4到步长为32。

同时，降尺度增强后的输出特征金字塔是FPEM的最终输出。我们使用分离卷积代替常规卷积构建FPEM的join part。因此，FPEM能够以较小的开销增大网络的感受野和深度。类似于FPN网络，FPEM能够通过融合低层和高层的信息增强不同尺度的特征。此外，不同于FPN，FPEM有两个优势，首先FPEM是一个级联模块。通过级联数量的增加，不同尺度的特征图可以更准确的融合，特征的感受野也会更长。其次，FPEM计算开销较小。FPEM使用分离卷积，其运算开销大约是FPN的1/5。

FFM模块用于融合不同深度的特征金字塔。因为对于语义分割来说高层语义和低层语义同样重要。一个直接有效的方法连接这些特征金字塔的方法就是上采样然后连接他们。然而，用这种方法融合的特征金字塔的通道数较多，使最终预测变慢。因此，我们提出了另一种融合方法如图5。首先采用元素相加的方法对相同尺度特征图进行合并。然后，相加后的特征图通过上采样和拼接，最终只有4*128个通道。

特征区域保持特征实例的完整形状，但是相邻的特征实例的特征区域通常会重叠。相反，使用内核可以很好的对文本实例进行区分。然而，内核通常不是完整的文本实例。为了重建完整的文本实例，我们需要需要将文本区域的像素融合到内核中。我们提出了一个可学习的算法，叫做Pixel Aggregation，将文本像素引导到正确的内核。

在Pixel Aggregation中，我们用聚类的思想从核中重建完整的文本实例。相同文本实例的文本像素和核的距离应该小，所以使用aggregation loss。不同的核之间应该保持距离。在测试阶段，我们使用预测的相似度向量来引导文本区域的像素到对应的kernel。后处理过程的细节为：1)找到内核分割结果的联通分支.2)对于每个核，融合他邻近的四个方向的文本像素在预测的区域内当他们相似度向量之间的距离小于d。3)重复步骤2直到没有临近像素。

4. 实验结果