文章目录
What If We Only Use Real Datasets for Scene Text Recognition?Toward Scene Text Recognition With Fewer Labels
2014年之后出现大量合成的数据,真实标签(比较少,影响模型精度)的识别较少
标签较少的STR被认为是困难的,因为只有成千上万的真实数据,导致准确性低。
我们证明只有使用真实标签才能令人满意地训练STR模型
- 贡献
- 1)仅使用真实标签就显示出足够的性能,简单的数据扩充可以充分利用真实数据
- 真实数据(276K)的精度接近于合成数据(16M)
- 2)在标签较少的字符串中引入半监督和自监督方法,进一步提高了性能.
- 1)仅使用真实标签就显示出足够的性能,简单的数据扩充可以充分利用真实数据
1.知识点介绍
-
合成数据
- 在一张图片中的某些区域添加文本,并加以不同的变化,比如字体的变化、颜色的变化、位置的变化
-
用于半监督和自监督学习的数据集(合并了2个未标记的数据集,1个标记的数据集)
- BOOK32:包含许多手写或弯曲的文本 (在其上使用PL(半监督的一种方法,Pseudo-Label (PL) )),未标记
- TextVQA :为基于文本的可视化问题回答而创建的。来自“广告牌”和“交通标志”等类别的28K OpenImage V3 [23]图像组成。未标记
- ST-VQA:场景文本,包含IC13、IC15和COCO
-
11个真实的数据集
数据集 | 描述 |
---|---|
2011_SVT,2013 IIIT,2013_IC13 | 大部分图像都是街上的横排文字 |
2015 _IC15 | 透视文本、模糊或低分辨率图像 |