文本检测加识别：Mask TextSpotter

最新推荐文章于 2024-09-09 08:26:34 发布

lpppcccc

最新推荐文章于 2024-09-09 08:26:34 发布

阅读量1.2k

点赞数

CC 4.0 BY-SA版权

分类专栏：目标检测

本文链接：https://blog.youkuaiyun.com/qq_41332469/article/details/90645668

Framework

在这里插入图片描述（1）以特征金字塔网络(FPN)为骨干，提取feature map：
自然图像中的文本大小各不相同。为了在所有尺度上构建高层次的语义特征图，我们使用了一个深度为50的ResNet[14]的特征金字塔结构[32]主干。FPN采用自顶向下的体系结构，融合了单尺度输入的不同分辨率特性，提高了精度，同时降低了边际成本。
（2）区域建议网络(RPN)为生成文本建议（ROI）：
RPN用于为后续的快速R-CNN和掩码分支生成文本建议。我们根据锚的大小在不同的阶段分配锚。具体来说，锚点的面积分别设置为{P2, P3, P4, P5, P6}五个阶段的{32,64,128,256,512}像素。各阶段还采用不同的纵横比{0.5,1,2}。通过这种方式，RPN可以处理各种大小和长宽比的文本。RoI Align用于提取提案的区域特征。与RoI pooling相比，RoI Align保存了更精确的位置信息，这对于掩模分支中的分割任务非常有利。需要注意的是，在之前的作品中，并没有采用特殊的文本设计，例如文本的特殊纵横比或锚点的方向。
（3）fast R-CNN：
快速R-CNN分支包括一个分类任务和一个回归任务。这个分支的主要功能是为目标检测提供更准确的信息，fast R-CNN的输入为7×7（ROI Align产生）。
（4）Mask Branch：
掩码分支中有两个任务，包括全局文本实例分割任务和字符分割任务。如图所示,给一个输入RoI,其大小是固定的16×64,通过四个卷积层和一层de-convolutional分支预测feature map(32×128大小),包括全局文本实例映射,36个字符映射和背景地图的字符。无论文本实例的形状如何，全局文本实例映射都可以精确地定位文本区域。字符图由36个字符组成，包括26个字母和10个阿拉伯数字。字符的背景图(不包括字符区域)也需要进行后处理