【文字超分辨率】TextZoom: Scene Text Image Super-Resolution in the Wild 阅读笔记

最新推荐文章于 2024-06-03 09:48:54 发布

刘芋儿

最新推荐文章于 2024-06-03 09:48:54 发布

阅读量6.1k

点赞数 2

分类专栏：超分辨率文章标签：计算机视觉神经网络

本文链接：https://blog.youkuaiyun.com/weixin_43514766/article/details/115197069

版权

本文介绍了针对低分辨率文本图像的超分辨率技术，提出TextZoom数据集，真实反映了场景文本的低分辨率挑战。研究显示，传统超分辨率方法在真实场景中效果不佳。为解决此问题，提出了TSRN网络，包含顺序残差块、中央对齐模块和梯度轮廓损失，显著提升了文本识别的准确性。实验表明，TSRN在TextZoom数据集上优于现有SR方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
🌟Paper: Scene Text Image Super-Resolution in the Wild
🌟Code: TextZoom

📖Abstract

低分辨率文本图像经常出现在自然场景中，例如手机拍摄的文档。识别低分辨率的文本图像具有挑战性，因为它们通常丢失了详细的内容信息，从而导致识别精度较差。一个直观的解决方案是引入超分辨率（SR）技术作为预处理手段。但是，以前的单图像超分辨率（SISR）方法是在合成的低分辨率图像上进行训练的（例如Bicubic下采样），这种方法很简单，但是不适合真正的低分辨率文本识别。为此，本文提出了一个称为TextZoom的真实场景文本SR数据集。它包含成对的真实低分辨率和高分辨率图像，这些图像由具有不同焦距的相机捕获，它比合成数据更具真实性和挑战性。【更模糊】在这里插入图片描述

SynLR是由BICUBIC下采样得到的；RealLR是通过调节相机焦距拍摄的。
文章提出了一个新的文本超分辨率网络，称为TSRN，共包含三个模块。
（1）提出了一个顺序残差块来提取文本图像的顺序信息。
（2）提出了boundary-aware损失来增强（锐化）字符边界。
（3）提出了一个中央对齐模块来缓解TextZoom中的对齐错误问题。

在TextZoom上进行的大量实验表明，与合成SR数据相比，TSRN大大提高了CRNN的识别精度，提高了13％以上，而ASTER和MORAN的识别率提高了近9.0％。此外，在提高TextZoom中LR图像的识别精度方面，TSRN明显优于7种最新的SR方法。例如，在ASTER和CRNN的识别精度上，它比LapSRN分别高出5％和8％。文章的结果表明，野外的低分辨率文本识别远未解决，因此需要更多的研究工作。

📖Introduction

场景文本识别是计算机视觉中一项基本且重要的任务，因为它通常是许多与文本相关的应用程序的关键步骤，包括文档检索，卡片识别，车牌识别等。

下表是TextZoom的统计信息。测试集分为3个不同的子集：简单，中等和困难。识别精度通过ASTER进行测试。可以看到，LR图像的识别精度随着难度的增加而降低。我们的主要目的是通过超分辨率提高LR图像的识别精度。
在这里插入图片描述
在本文中，作者提出了一个成对的场景文本SR数据集，称为TextZoom，这是第一个真实文本SR的数据集。以前的超分辨率方法通过简单地应用退化（如双三次插值或模糊核）来生成HR图像对应的LR。但是，真实的模糊场景文本图像在退化过程具有很大的可变性。场景文本具有任意形状，分布式照明和不同的背景，因此，其超分辨率更具挑战性。