[论文阅读]Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning

文章被收录于ICCV2019
[论文地址]http://openaccess.thecvf.com/content_ICCV_2019/html/Sun_Chinese_Street_View_Text_Large-Scale_Chinese_Text_Reading_With_Partially_ICCV_2019_paper.html
[代码地址]暂未找到


摘要

  1. 由于训练数据有限,现有的基准很难评估大量词汇的深度学习模型的性能,本文提出新的基准数据集Chinese Street View Text (C-SVT)。
  2. C-SVT由430,000张图片组成,其中30,000张图片是抢标注图像(所有的文字区域与label),剩余的400,000张图片为弱标注文本(只有感兴趣区域文本的label,有些区域并不关注)。
  3. 为了从弱标记图像中定位出最佳匹配的文本建议,本文在整个模型中加入了一个在线建议匹配模块,通过共享参数来定位关键词区域进行端到端的训练。

简介

本文贡献:

  1. 提出了全新的大规模中文文本阅读基准C-SVT,包括强标注与弱标注图像,是现存中文文本数据集量的14倍。
  2. 本文提出了一个端到端可训练模块来利用大规模弱标注图像,该模块既可以从强标注中学习,也可以从弱标注中学习,从而定位和识别文本。
  3. 本文提出的部分监督的模型在性能上可以超过全监督的模型,且在ICDAR 2017-RCTW上达到了最优结果。

相关工作

文本阅读基准

英文文本数据集:

  • 规则文本
  • 弯曲文本

中文文本数据集:

  • 手写文本
    • Liu 等人提出的 [26]
  • 自然场景文本

端到端文本阅读

[40], [12], [18], [23]将文本阅读分为检测与识别两步,[22], [7], [5], [6], [28], [14], [29], [37]通过共享特征的方式将两步变为端到端的方式。

检测:[8], [22], [29]使用了区域推荐网络RPN生成文本区域,[14], [28], [37]采用全卷积网络预测文本区域。

识别:[11], [4]使用 CTC (Connectionist Temporal Classification)[7], [28]和基于注意力的LSTM解码器,将单个字符识别为序列。

弱监督和部分监督学习

弱监督的文本检测方法[38], [15]使用字符级别的边界框来检测文本,并使用单词级别的边界框来提升准确率。


方法

本文提出的模型由骨干网络、文本检测分支、透视RoI(感兴趣区域)转换、文本识别分支和在线推荐匹配模块组成,如图4所示:
在这里插入图片描述

端到端中文文本阅读

文本能检测分支:本文采用ResNet-50作为骨干网络,加上全卷积模块构成文本检测分支,共同完成文本/非文本分类与文本位置回归。
训练阶段:使用的损失函数为: L d e t = L l o c + λ L c l s L_{det}=L_{loc}+\lambda{L_{cls}} Ldet=Lloc+λLcls,其中 L l o c L_{loc} Lloc是计算位置回归的平滑L1损失, L c l s L_{cls} Lcls是文本/非文本分类的筛子损失(dice loss), λ \lambda λ是超参。
测试阶段:将阈值用于文本分类的概率且使用NMS筛选选定的四边形区域。

Perspective RoI Transform:将特征图 F F F中的对应区域,对齐为小特征图 F p F_p Fp。每一个 F p F_p Fp保持在具有不变的纵横比的固定高度,当高度/宽度大于1时,此时将每条垂直线(不太理解)沿顺时针方向旋转90度,从而实现识别水平和垂直文本。

文本识别分支:本文在识别分支中采用了基于注意力的编解码框架和RNN作为编码器,将 F p F_p Fp作为输入,识别分支提取具有堆叠卷积层的顺序文本特征 F s F_s Fs,其中RNN的循环单元采用GRU(Gated Recurrent Unit)。

部分监督学习

Online Proposal Matching

本文提出的OPM目的是通过关键字注释 y w y^w yw来定位文本,即生成一组text proposals,记作 { P w ( i ) } i = 1 N \left\{P^{w}(i)\right\}_{i=1}^{N} { Pw(i)}i=1N,其中 N N N为预测得到的text proposals数目。

然后,通过perspective RoI提取每个proposal中的特征图,然后使用CNN-RNN编码器编码成为序列特征 F s w F_s^w Fsw。为了计算 F s w F_s^w Fsw和弱标签 y w y^w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值