Framework
(1)以特征金字塔网络(FPN)为骨干,提取feature map:
自然图像中的文本大小各不相同。为了在所有尺度上构建高层次的语义特征图,我们使用了一个深度为50的ResNet[14]的特征金字塔结构[32]主干。FPN采用自顶向下的体系结构,融合了单尺度输入的不同分辨率特性,提高了精度,同时降低了边际成本。
(2)区域建议网络(RPN)为生成文本建议(ROI):
RPN用于为后续的快速R-CNN和掩码分支生成文本建议。我们根据锚的大小在不同的阶段分配锚。具体来说,锚点的面积分别设置为{P2, P3, P4, P5, P6}五个阶段的{32,64,128,256,512}像素。各阶段还采用不同的纵横比{0.5,1,2}。通过这种方式,RPN可以处理各种大小和长宽比的文本。RoI Align用于提取提案的区域特征。与RoI pooling相比,RoI Align保存了更精确的位置信息,这对于掩模分支中的分割任务非常有利。需要注意的是,在之前的作品中,并没有采用特殊的文本设计,例如文本的特殊纵横比或锚点的方向。
(3)fast R-CNN:
快速R-CNN分支包括一个分类任务和一个回归任务。这个分支的主要功能是为目标检测提供更准确的信息,fast R-CNN的输入为7×7(ROI Align产生)。
(4)Mask Branch:
掩码分支中有两个任务,包括全局文本实例分割任务和字符分割任务。如图所示,给一个输入RoI,其大小是固定的16×64,通过四个卷积层和一层de-convolutional分支预测feature map(32×128大小),包括全局文本实例映射,36个字符映射和背景地图的字符。无论文本实例的形状如何,全局文本实例映射都可以精确地定位文本区域。字符图由36个字符组成,包括26个字母和10个阿拉伯数字。字符的背景图(不包括字符区域)也需要进行后处理