E2E-MLT - an Unconstrained End-to-End Method for Multi-Language Scene Text(论文解读)

端到端–多语言场景文字检测识别(E2E-MLT)

MichalBušta¹,YashPatel²,JiriMatas¹¹
捷克技术大学,捷克布拉格²机器人研究所,卡内基梅隆大学

摘要:

提出了一种用于多语言场景文本定位和识别的端到端可训练(完全可微)方法。 该方法基于单个完全卷积网络(FCN),具有用于所有任务的共享层。

E2E-MLT是首次发布的用于场景文本的多语言OCR。虽然在多语言设置方面受过训练,但E2E-MLT与其他仅针对英语场景文本训练的方法相比,表现出了竞争性能。

1介绍—2相关工作—3本文方法—4实验评估—5总结

1介绍

现有方法的不足:
(1)评估仅限于英语文本,并且方法没有在多语言设置中训练,
(2)它们解决文本定位和识别是两个独立的问题或利用多个网络来解决个别问题,
(3)现有的OCR方法缺乏处理旋转或垂直文本实例的能力。

具体的挑战:
1)目前公开可用于非英语场景文本识别的数据不足以培养深层架构。
2)个人语言具有特定的挑战,例如中文和日文具有大量字符,并且存在大量实例文本是垂直的。 孟加拉的场景文字大多是手写的。

E2E-MLT使用单个完全卷积网络处理多语言场景文本定位、识别和脚本识别。
该方法已经经过以下语言的培训:阿拉伯语,孟加拉语,汉语,日语,韩语,拉丁语,能够识别7,500个字符(相比于英语中的不到100)并且不使用任何固定字词的字典

本文贡献:
1)识别多语言文本不需要脚本识别。E2E-MLT使用简单的多数表决机制对OCR输出执行脚本识别。
2)E2E-MLT能够识别高度旋转和垂直的文本实例,这是通过使用角度的cos(x) - sin(x)表示来实现的。
3)我们验证基于FCN的架构能够处理多语言文本检测和识别.E2E-MLT是第一个发布的多语言OCR,可以很好地适用于六种语言。
4)我们在ICDAR RRC-MLT 2017 [33]数据集上提供图像级别和单词级别的共现语言统计数据。 这些统计数据表明,来自不同语言的字符不仅可以在同一图像中共同出现,而且可以在同一个单词中共同出现。
5)我们公开发布了大规模综合生成的数据集,用于培训多语言场景文本检测,识别和脚本识别方法。

2 相关工作

2.1 文本定位
目标是获得精确的单词级边界框或分割图

传统方法依赖于手动设计的特征来捕获场景文本的属性。 通常,这些方法通过极值区域提取或边缘检测来寻找候选字符。
利用CNN对图像补丁(通过滑动窗口获得)来预测文本/无文本分数,字符和二元类。
一种多阶段以字为中心的方法,其中通过聚合边缘框和聚合信道特征的输出来获得水平边界框提议。 使用随机森林分类器过滤提议。 作为后处理,使用CNN回归器来获得细粒度的边界框。
YOLO物体探测器中汲取灵感,并提出了一种完全卷积回归网络,该网络在合成数据上训练,用于在图像中以多种尺度进行检测和回归;
田等人使用CNN-RNN联合模型来预测文本/无文本分数,y轴坐标和锚边精化。
类似的方法使SSD对象检测器适应于检测水平边界框。
Maet al通过调整Faster-RCNN 架构并添加6个手工旋转和3个方面来检测不同方向的文本
Zhou等人提出了一种两阶段的词或线级定位方法,遵循U-Shape(具有来自

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值