What If We Only Use Real Datasets for SceneText RecognitionTowardSceneTextRecognitionWithFewerLabels

What If We Only Use Real Datasets for Scene Text Recognition?Toward Scene Text Recognition With Fewer Labels

2014年之后出现大量合成的数据,真实标签(比较少,影响模型精度)的识别较少

标签较少的STR被认为是困难的,因为只有成千上万的真实数据,导致准确性低。

我们证明只有使用真实标签才能令人满意地训练STR模型

  • 贡献
    • 1)仅使用真实标签就显示出足够的性能,简单的数据扩充可以充分利用真实数据
      • 真实数据(276K)的精度接近于合成数据(16M)
    • 2)在标签较少的字符串中引入半监督和自监督方法,进一步提高了性能.

1.知识点介绍

  • 合成数据

    • 在一张图片中的某些区域添加文本,并加以不同的变化,比如字体的变化、颜色的变化、位置的变化
  • 用于半监督和自监督学习的数据集(合并了2个未标记的数据集,1个标记的数据集)

    • BOOK32:包含许多手写或弯曲的文本 (在其上使用PL(半监督的一种方法,Pseudo-Label (PL) )),未标记
    • TextVQA :为基于文本的可视化问题回答而创建的。来自“广告牌”和“交通标志”等类别的28K OpenImage V3 [23]图像组成。未标记
    • ST-VQA:场景文本,包含IC13、IC15和COCO
  • 11个真实的数据集

数据集 描述
2011_SVT,2013 IIIT,2013_IC13 大部分图像都是街上的横排文字
2015 _IC15 透视文本、模糊或低分辨率图像
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值