【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记

本文介绍了针对低分辨率文本图像的超分辨率技术,提出TextZoom数据集,真实反映了场景文本的低分辨率挑战。研究显示,传统超分辨率方法在真实场景中效果不佳。为解决此问题,提出了TSRN网络,包含顺序残差块、中央对齐模块和梯度轮廓损失,显著提升了文本识别的准确性。实验表明,TSRN在TextZoom数据集上优于现有SR方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
🌟Paper: Scene Text Image Super-Resolution in the Wild
🌟Code: TextZoom


📖Abstract

低分辨率文本图像经常出现在自然场景中,例如手机拍摄的文档。 识别低分辨率的文本图像具有挑战性,因为它们通常丢失了详细的内容信息,从而导致识别精度较差。一个直观的解决方案是引入超分辨率(SR)技术作为预处理手段。 但是,以前的单图像超分辨率(SISR)方法是在合成的低分辨率图像上进行训练的(例如Bicubic下采样),这种方法很简单,但是不适合真正的低分辨率文本识别。为此,本文提出了一个称为TextZoom的真实场景文本SR数据集。它包含成对的真实低分辨率和高分辨率图像,这些图像由具有不同焦距的相机捕获,它比合成数据更具真实性和挑战性。【更模糊】在这里插入图片描述


SynLR是由BICUBIC下采样得到的;RealLR是通过调节相机焦距拍摄的。
文章提出了一个新的文本超分辨率网络,称为TSRN,共包含三个模块。
(1)提出了一个顺序残差块来提取文本图像的顺序信息。
(2)提出了boundary-aware损失来增强(锐化)字符边界。
(3)提出了一个中央对齐模块来缓解TextZoom中的对齐错误问题。

在TextZoom上进行的大量实验表明,与合成SR数据相比,TSRN大大提高了CRNN的识别精度,提高了13%以上,而ASTER和MORAN的识别率提高了近9.0%。 此外,在提高TextZoom中LR图像的识别精度方面,TSRN明显优于7种最新的SR方法。 例如,在ASTER和CRNN的识别精度上,它比LapSRN分别高出5%和8%。文章的结果表明,野外的低分辨率文本识别远未解决,因此需要更多的研究工作。


📖Introduction

场景文本识别是计算机视觉中一项基本且重要的任务,因为它通常是许多与文本相关的应用程序的关键步骤,包括文档检索,卡片识别,车牌识别等。

下表是TextZoom的统计信息。 测试集分为3个不同的子集:简单,中等和困难。 识别精度通过ASTER进行测试。 可以看到,LR图像的识别精度随着难度的增加而降低。 我们的主要目的是通过超分辨率提高LR图像的识别精度。
在这里插入图片描述
在本文中,作者提出了一个成对的场景文本SR数据集,称为TextZoom,这是第一个真实文本SR的数据集。 以前的超分辨率方法通过简单地应用退化(如双三次插值或模糊核)来生成HR图像对应的LR。 但是,真实的模糊场景文本图像在退化过程具有很大的可变性。场景文本具有任意形状,分布式照明和不同的背景,因此,其超分辨率更具挑战性。

我们的数据集具有三个主要优势。
(1)该数据集有很好的注释。 我们提供了文本图像的方向,文本内容和原始焦距。
(2)数据集包含来自不同自然场景的丰富文本,包括街景,图书馆,商店,车辆内饰等。
(3)将数据集按难度分为三个子集。

此外,为了重建低分辨率文本图像,我们提出了一种面向文本的端到端方法。 传统的SISR方法仅着眼于重建

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值