文本检测加识别:Mask TextSpotter

Framework

在这里插入图片描述(1)以特征金字塔网络(FPN)为骨干,提取feature map:
自然图像中的文本大小各不相同。为了在所有尺度上构建高层次的语义特征图,我们使用了一个深度为50的ResNet[14]的特征金字塔结构[32]主干。FPN采用自顶向下的体系结构,融合了单尺度输入的不同分辨率特性,提高了精度,同时降低了边际成本。
(2)区域建议网络(RPN)为生成文本建议(ROI):
RPN用于为后续的快速R-CNN和掩码分支生成文本建议。我们根据锚的大小在不同的阶段分配锚。具体来说,锚点的面积分别设置为{P2, P3, P4, P5, P6}五个阶段的{32,64,128,256,512}像素。各阶段还采用不同的纵横比{0.5,1,2}。通过这种方式,RPN可以处理各种大小和长宽比的文本。RoI Align用于提取提案的区域特征。与RoI pooling相比,RoI Align保存了更精确的位置信息,这对于掩模分支中的分割任务非常有利。需要注意的是,在之前的作品中,并没有采用特殊的文本设计,例如文本的特殊纵横比或锚点的方向。
(3)fast R-CNN:
快速R-CNN分支包括一个分类任务和一个回归任务。这个分支的主要功能是为目标检测提供更准确的信息,fast R-CNN的输入为7×7(ROI Align产生)。
(4)Mask Branch:
掩码分支中有两个任务,包括全局文本实例分割任务和字符分割任务。如图所示,给一个输入RoI,其大小是固定的16×64,通过四个卷积层和一层de-convolutional分支预测feature map(32×128大小),包括全局文本实例映射,36个字符映射和背景地图的字符。无论文本实例的形状如何,全局文本实例映射都可以精确地定位文本区域。字符图由36个字符组成,包括26个字母和10个阿拉伯数字。字符的背景图(不包括字符区域)也需要进行后处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值