文章目录
文章被收录于ICCV2019
[论文地址]http://openaccess.thecvf.com/content_ICCV_2019/html/Sun_Chinese_Street_View_Text_Large-Scale_Chinese_Text_Reading_With_Partially_ICCV_2019_paper.html
[代码地址]暂未找到
摘要
- 由于训练数据有限,现有的基准很难评估大量词汇的深度学习模型的性能,本文提出新的基准数据集Chinese Street View Text (C-SVT)。
- C-SVT由430,000张图片组成,其中30,000张图片是抢标注图像(所有的文字区域与label),剩余的400,000张图片为弱标注文本(只有感兴趣区域文本的label,有些区域并不关注)。
- 为了从弱标记图像中定位出最佳匹配的文本建议,本文在整个模型中加入了一个在线建议匹配模块,通过共享参数来定位关键词区域进行端到端的训练。
简介
本文贡献:
- 提出了全新的大规模中文文本阅读基准C-SVT,包括强标注与弱标注图像,是现存中文文本数据集量的14倍。
- 本文提出了一个端到端可训练模块来利用大规模弱标注图像,该模块既可以从强标注中学习,也可以从弱标注中学习,从而定位和识别文本。
- 本文提出的部分监督的模型在性能上可以超过全监督的模型,且在ICDAR 2017-RCTW上达到了最优结果。
相关工作
文本阅读基准
英文文本数据集:
中文文本数据集:
端到端文本阅读
[40], [12], [18], [23]将文本阅读分为检测与识别两步,[22], [7], [5], [6], [28], [14], [29], [37]通过共享特征的方式将两步变为端到端的方式。
检测:[8], [22], [29]使用了区域推荐网络RPN生成文本区域,[14], [28], [37]采用全卷积网络预测文本区域。
识别:[11], [4]使用 CTC (Connectionist Temporal Classification)[7], [28]和基于注意力的LSTM解码器,将单个字符识别为序列。
弱监督和部分监督学习
弱监督的文本检测方法[38], [15]使用字符级别的边界框来检测文本,并使用单词级别的边界框来提升准确率。
方法
本文提出的模型由骨干网络、文本检测分支、透视RoI(感兴趣区域)转换、文本识别分支和在线推荐匹配模块组成,如图4所示:
端到端中文文本阅读
文本能检测分支:本文采用ResNet-50作为骨干网络,加上全卷积模块构成文本检测分支,共同完成文本/非文本分类与文本位置回归。
训练阶段:使用的损失函数为: L d e t = L l o c + λ L c l s L_{det}=L_{loc}+\lambda{L_{cls}} Ldet=Lloc+λLcls,其中 L l o c L_{loc} Lloc是计算位置回归的平滑L1损失, L c l s L_{cls} Lcls是文本/非文本分类的筛子损失(dice loss), λ \lambda λ是超参。
测试阶段:将阈值用于文本分类的概率且使用NMS筛选选定的四边形区域。
Perspective RoI Transform:将特征图 F F F中的对应区域,对齐为小特征图 F p F_p Fp。每一个 F p F_p Fp保持在具有不变的纵横比的固定高度,当高度/宽度大于1时,此时将每条垂直线(不太理解)沿顺时针方向旋转90度,从而实现识别水平和垂直文本。
文本识别分支:本文在识别分支中采用了基于注意力的编解码框架和RNN作为编码器,将 F p F_p Fp作为输入,识别分支提取具有堆叠卷积层的顺序文本特征 F s F_s Fs,其中RNN的循环单元采用GRU(Gated Recurrent Unit)。
部分监督学习
Online Proposal Matching
本文提出的OPM目的是通过关键字注释 y w y^w yw来定位文本,即生成一组text proposals,记作 { P w ( i ) } i = 1 N \left\{P^{w}(i)\right\}_{i=1}^{N} { Pw(i)}i=1N,其中 N N N为预测得到的text proposals数目。
然后,通过perspective RoI提取每个proposal中的特征图,然后使用CNN-RNN编码器编码成为序列特征 F s w F_s^w Fsw。为了计算 F s w F_s^w Fsw和弱标签 y w y^w