Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

最新推荐文章于 2024-03-22 09:35:41 发布

原创

最新推荐文章于 2024-03-22 09:35:41 发布 · 911 阅读

1 ·

CC 4.0 BY-SA版权

Deep TextSpotter是一个端到端训练的场景文本定位和识别框架，它在ICDAR 2013和ICDAR 2015数据集上达到了最先进的准确率，并且速度提高了10倍，达到10 fps。该模型通过扩展YoloV2架构进行文本检测和识别，解决了传统检测和识别模型分开的问题。模型在训练阶段使用SynthText和Synthetic Word数据集预训练，然后在ICDAR 2013和2015训练集上联合训练3个周期。尽管在模糊、垂直和小文本上的表现有待提高，但实验结果显示，该方法可以扩展用于文本检测和识别，联合训练效果更优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework

结果：state-of-the-art accuracy in the end-to-end text recognition on two standard datasets – ICDAR 2013 and ICDAR 2015,并且速度快了10倍，达到10 fps.

目前存在的问题：之前普遍是把检测模型和单独的识别模型连接在一起。

本模型：检测和识别在单一学习框架训练。本文展示了可以通过先进的目标检测算法经过拓展之后用于文本检测和识别。

很多文本检测方法是基于一般的目标检测方法然后拓展而来的。

we use YOLOv2 architecture [22] for its lower complexity, we use the bilinear sampling to produce tensors of variable width to deal with character sequence recognition and we employ a different (and significantly faster) classification stage.

使用YOLOv2的原因：YOLOv2更精确，并且比标准的VGG-16 architecture的复杂度低很多。场景图像中的文本可能很小，所以分辨率要高才行，否则很多小的不可读。

本文移除了YOLOv2的全连接层。模型最终的大小是W/32× H/32×1024。

与Faster