【读点论文】Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing

Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing

Abstract

  • 视觉文本是文档和场景图像中的关键元素,在计算机视觉领域具有重要意义并引起了广泛关注。除了视觉文本检测和识别之外,视觉文本处理领域的研究也经历了激增,这得益于基础生成模型的出现。然而,由于文本具有区别于一般对象的独特属性和特征,因此挑战依然存在。正如我们在研究中观察到的那样,有效利用这些独特的文本特征对于视觉文本处理至关重要。在本次调查中,我们对该领域的最新进展进行了全面的多视角分析。首先,我们引入了一个分层分类法,涵盖了从文本图像增强和恢复到文本图像处理等领域,然后是不同的学习范式。随后,我们深入讨论了如何将特定的文本特征(例如结构、笔画、语义、风格和空间上下文)无缝集成到各种任务中。 此外,我们探索了可用的公共数据集,并在几个广泛使用的数据集上对所审查的方法进行了基准测试。最后,我们确定了未来研究的主要挑战和潜在途径。我们的目标是将这项调查确立为一项基本资源,促进在视觉文本处理这一动态领域的持续探索和创新。与这项调查相关的项目可在 https://github.com/shuyansy/Survey-of-Visual-Text-Processing 上找到。
  • 论文地址:[2402.03082] Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing (arxiv.org)

INTRODUCTION

  • 视觉文本是嵌入在图像中的文本元素,在图像/视频检索 、视障人士辅助、场景理解、文档人工智能等方面发挥着重要作用。根据文本图像类型,视觉文本可分为文档文本和场景文本,分别嵌入在文档图像和场景图像中。视觉文本研究领域分为两个主要分支:文本识别和文本处理。目前,专注于文本识别的研究工作大幅增加。这一研究演变从深度学习之前的时代映射到当前以深度学习技术为主导的范式,这是众多研究 强调的进展。

  • Ye 等人 [Text detection and recognition in imagery: A survey] 和 Zhu 等人 [Scene text detection and recognition: Recent advances and future trends] 的评论主要集中在基于图像的文本检测和识别工作上,这些工作大多利用传统的手工特征。Liu 等人 [Scene text detection and recognition with advances in deep learning: A survey] 和 Lin 等人 [Review of scene text detection and recognition] 的评论将重点转向用于检测和识别场景文本的深度学习框架。此外,Chen 等人 [Text recognition in the wild: A survey] 全面研究了场景文本识别技术。尽管这些学术贡献在文本识别(包括检测和识别)方面有所建树,但文献中仍然缺乏一项整合视觉文本处理研究全领域的统一调查。

  • 视觉文本处理领域包括两个主要类别:文本图像增强/恢复和文本图像处理,如图 1 所示。增强/恢复类别包括:(i)文本图像超分辨率,增强低分辨率图像中文本的分辨率和清晰度;(ii)文档图像去扭曲,纠正数字化工作流程中至关重要的几何扭曲;(iii)文本图像去噪,旨在降低噪音和提高图像质量。相反,处理类别包括:(i)文本删除,从图像中消除文本并恢复底层背景的像素;(ii)文本编辑,改变文本内容同时保留其原始美感;(iii)文本生成,合成具有多种外观以保持视觉真实性的文本图像。其他相关主题包括文本分割和编辑检测。视觉文本处理在许多实际应用中都至关重要。文本图像增强和恢复任务主要侧重于增强低保真图像的质量。这包括通过去扭曲来纠正文本定位,通过超分辨率或去噪来增强可读性,这对于提高文本识别和理解的准确性至关重要。同时,文本图像处理技术在隐私保护中发挥着重要作用,通过删除文本,通过编辑图像翻译,通过文本生成增强增强现实界面。

    • 在这里插入图片描述

    • 视觉文本处理任务的可视化样本。第一行是文本图像增强/恢复,包括超分辨率 、去扭曲 和去噪 。第二行是文本图像处理,包括文本删除 、文本编辑 和文本生成 。

  • 视觉文本处理是低级计算机视觉的一个子领域,但更具体地关注文本像素。 此外,从方法论的角度来看,它与生成式人工智能 (AI) 紧密相关。在生成式人工智能领域,由于深度学习的发展,该领域取得了重大进步,尤其是以生成对抗网络 和扩散模型 等突破性框架的发展为标志。一方面,由于文本与一般对象之间固有的相似性,这些通用范式赋予视觉文本处理方法强大的功能。另一方面,它们也面临着许多挑战,因为文本具有与一般对象不同的独特特征。例如,场景文本实例可能在语言、颜色、字体、大小、方向和形状方面有所不同。

  • 为了应对这些挑战,研究人员研究了一系列与文本相关的特征,包括结构(布局和方向)、笔画(字符字形)、语义(语言信息)、风格(颜色和字体)和空间上下文(背景纹理和深度)。文本相关任务的广泛使用,无论是在强监督下使用完全注释的数据还是设计弱监督方法,都有助于提取特定的文本特征。此外,多任务架构 和条件生成模型 等新兴领域允许将各种文本特征灵活地集成到不同的视觉文本处理框架中,从而带来显著的增强。

  • 在本综述中,我们全面、多角度地概述了基于深度学习的视觉文本处理工作的最新进展。首先,我们根据处理目的对现有工作进行分类,然后根据不同的学习范式进行分类,从而建立分层分类法。随后,我们深入讨论各种文本特征类别中的开创性工作,特别关注文本特征和网络设计的无缝集成。 随后,我们详细介绍了基准数据集、评估指标和相应的实验结果比较。 最后,我们强调了当前的研究挑战并提出了未来研究的潜在方向。总而言之,我们的贡献如下:

    • (i) 尽管存在大量关于文本检测和识别的调查,但这是第一篇专门针对视觉文本处理工作的全面文献综述。
    • (ii) 我们开发了一套针对视觉文本处理作品的多视角分类方案。这不仅需要基于不同任务和学习范式的分层分类法,而且还深入研究各种不同的文本特征。
    • (iii)我们对来自不同文本处理任务的各种数据集进行了全面概述,并对当代作品的表现进行了批判性评估。
    • (iv)我们识别并总结了当前研究中尚未解决的挑战,并对该领域未来探索的有希望的方向提供了见解。
  • 本综述的组织结构如图 2 所示。 第 2 节简要介绍了问题相关分类法和相关研究领域的背景。第 3 节全面回顾了该领域的代表性作品,强调它们与特定文本特征的无缝集成。第 4 节检查了可用的数据集。第 5 节将所审查的作品与基准进行比较。第 6 节讨论了该领域现有的开放挑战,并提供了对未来潜在发展的见解。第 7 节总结了本综述。

    • 在这里插入图片描述

    • 本综述的主要结构。首先,我们介绍了从图像增强和恢复到图像处理的层次分类法,然后介绍了不同的学习范式。随后,我们深入讨论了如何将特定的文本特征集成到各种任务中。此外,我们探索了公共数据集并对所审查的方法进行了基准测试。最后,我们确定了未来研究的开放挑战。

BACKGROUND

Problem Formulation and Taxonomy

  • 形式上,让 X 和 Y 分别表示输入和输出空间。基于深度学习的视觉文本处理解决方案通常旨在学习一个最佳映射函数,该函数可以用数学形式表示为 f ∗ : X → Y 。根据 Y 的性质,我们将现有工作分为两个主要领域:文本图像增强/恢复和文本图像处理,其中每个领域由具有特定关注点的各种任务组成。在下一小节中,我们分别说明 X 和 Y 在每个领域和任务中的具体情况。
Text Image Enhancement/Restoration
  • 在自然场景或文档中拍摄的文本图像经常会因为分辨率低、失真、噪声干扰等因素而导致保真度低。为了解决这个问题,人们提出了各种方法来增强或恢复文本图像的质量。这些方法可以进一步分为超分辨率、去扭曲和去噪。在这种情况下,Y 应该与 X 保持语义一致性,而像素空间分布应该细化以符合人类评估的标准
  • 文本图像超分辨率 :文本图像超分辨率 (SR) 旨在从低分辨率 (LR) 文本图像 X 中重建高分辨率 (HR) 文本图像 Y,而低分辨率 (LR) 文本图像 X 遭受了各种质量下降。此任务极大地促进了后续文本识别任务 的完成。虽然与更广泛的一般图像超分辨率有共同之处,但文本图像 SR 也带来了独特的挑战。 首先,这是一个以前景为中心的任务,其中前景文本的质量在评估中至关重要,超过了背景纹理恢复。此外,成功的恢复必须保留文本的纹理连续性,最重要的是,在 HR 和 LR 版本中保留文本的语义完整性。这对于具有复杂字符结构的语言尤其重要,因为细微的笔画差异都会显著改变视觉感知并导致误解。此外,现实场景中质量下降因素的多变性(例如设备质量、光照条件和压缩算法)也对所提出方法的普遍性构成了额外的障碍
  • 文档图像去扭曲: 文档图像去扭曲 (DID) 有望根据坐标映射将扭曲的文档图像转换为平面图像。相机角度、位置不佳和文档物理变形等不可控因素会严重阻碍文档图像的视觉解释,对后续过程产生不利影响,包括文本识别 、表格结构识别 和视觉信息提取。在这种情况下,X 表示作为输入的扭曲文档图像,而 Y 是源图像和预测的平面图像之间的坐标映射。最近,DID 已成为一个关键的研究领域。尽管取得了重大进展,但 DID 仍然面临着巨大的挑战。当前的方法通常依赖于预定义的约束,这可能导致各种应用场景中的模式崩溃,例如涉及轮廓不清晰或不完整的文档的场景。此外,虽然现有的 DID 技术通常需要高度准确的事实才能获得有效的结果,但现有的注释良好的数据集都是合成的,大量未标记的真实世界数据仍未得到充分利用
  • 文本图像去噪:文本图像去噪(TID)致力于减少阴影、污点和水印等负面影响,对捕获的文本图像 X 进行处理,从而实现无噪声的预测 Y。这种增强功能提高了可读性和文本检测等下游应用程序的性能。与自然图像去噪不同,TID 需要一种细致的方法来保持文本结构和内容的完整性。考虑到噪声类型的多样性,该领域的研究通常分为两大类:照明去除,解决曝光不足、过度曝光和阴影等问题;杂质去除,这是 TID 的一个关键方面,专注于消除碎片化噪声,如墨水伪影、水印和印章。在训练数据足够的情况下,单个大型模型是否能有效消除各种类型的噪声仍是一个悬而未决的问题。
Text Image Manipulation
  • 自然场景中的图像中的文本通常需要进行处理以实现各种目的,例如隐私保护、图像翻译和增强现实 (AR) 相关应用。现有研究主要集中于文本图像删除、文本图像编辑和文本图像生成/合成。对于此上下文中的输出图像 Y,视觉结果应与输入图像 X 保持一致或忠实地符合输入条件 X,而文本内容应被删除、修改或附加。
  • 场景文本去除:场景文本去除 (STR) 是一个基本过程,包括从自然图像中删除文本并用适合上下文的背景像素无缝填充这些区域。在本例中,Y 是没有文本的背景图像。鉴于图像中文本的普遍性,尤其是在社交媒体上,STR 对于隐私保护至关重要。这项任务分为两个基本子任务:文本定位以识别文本区域和背景重建以替换文本。STR 方法的最新进展导致了两种主要方法的发展:直接去除仅以 X 作为输入,辅助去除以 X、M 作为输入,其中 M 是二进制文本区域分割掩码。与直接去除方法相比,辅助去除方法通常由于其精确的检测指标而表现出更优的结果。
  • 场景文本编辑:场景文本编辑侧重于属性更改、样式转换和内容修改。 总体目标是以无缝集成到背景中的方式替换文本,从而最大限度地减少对图像整体外观的破坏。文本编辑任务虽然方法各异,但通常涉及三个核心子任务:文本更改、背景恢复和图像集成。该领域的最新进展导致方法分为两大类:样式编辑和内容编辑。在样式编辑中,Y 保持与 X 相同的内容,但字符的外观、颜色和背景有所改变。样式编辑技术的显著进步增强了图像文本处理工具,从而为各个领域带来了更智能、更自动化的应用程序。相反,内容编辑与样式编辑的美学重点不同,旨在让 Y 在更改其单词或字符的同时保留 X 的原始文本样式。这方面的研究通常侧重于两个任务:调整目标文本以匹配给定图像的样式,并将其无缝集成到原始文本区域。
  • 场景文本生成:在深度学习时代,训练数据集的规模对模型性能有至关重要的影响。然而,场景文本检测和识别任务需要大量人工注释文本框和相应内容,导致现实世界的数据有限。为了克服这种数据稀缺性,文本图像合成方法应运而生,为场景文本数据集的人工注释提供了一种替代劳动密集型过程的方法。尽管如此,合成图像的质量仍然是一个关键问题,它应该类似于真实数据的分布。

Learning Paradigms

  • 在本节中,我们将研究不同任务中与不同映射函数相对应的流行学习范式。
Reconstruction-based Learning
  • 基于重建的学习方法对于文本图像的恢复和增强至关重要,旨在纠正失真、增强清晰度并提高整体可读性。 为此,分别出现了像素放大方法、坐标配准方法和分割方法。

  • 像素放大方法:这些方法的核心是使用损失函数(通常是均方误差 (MSE))来最小化增强输出和地面实况之间的像素差异。通常采用 UNet 和 Vision Transformers 等架构。

    • 文本图像超分辨率方法主要作为 OCR 系统的预处理步骤进行建模,利用在高分辨率 (HR) 图像和低分辨率 (LR) 图像的重建结果之间计算的 MSE 损失。Dong 等人 采用卷积神经网络 (CNN) 实现文本图像超分辨率 (SR),并在 ICDAR 2015 竞赛 中取得重大成果。Nakao 等人 开发了一个双 CNN 框架,该框架包含一个字符 SR 模块和一个通用图像 SR 模块,分别在文本图像和 ImageNet 数据上进行训练。Quan 等人 实现了一种多阶段模型策略,以精确重建 LR 文本图像的高频细节。重建损失也应用于各种文本图像去噪任务 以便于准确的背景估计。
  • 坐标配准方法 :这些方法并非仅仅关注像素保真度,而是旨在预测扭曲图像中坐标的变换,以获得更准确、更清晰的结构。这种方法对于文本因透视扭曲或介质弯曲而扭曲的图像尤其有用。

    • 在深度学习时代,文档图像去扭曲被建模为一个像素预测任务。Das 等人 将此任务视为语义分割任务之一,利用全卷积网络(FCN) 来识别折叠的视觉特征。Ma 等人 提出了一种开创性的方法,将 DID 任务定义为从扭曲图像中确定像素位移场的过程,允许直接对扭曲图像进行采样以获得平坦图像。他们采用堆叠的 U-Net 作为网络并引入数据合成方法,实现了大规模文档图像及其对应位移图的自动生成。
  • 分割方法:同样,为了消除图像中的噪声,Hu 等人 和 Gholamian 等人 使用配对数据将重叠文本的分离作为分割挑战。在处理邮票模糊图像时,Yang 等人 提出了一种专门的擦除模型,该模型可以预测用于定位邮票的二进制掩码。

Generative Learning
  • 生成学习致力于生成与给定训练数据分布一致的新数据点,为许多图像处理方法铺平了道路。这些技术主要利用生成对抗网络 (GAN) 或扩散模型。

  • 生成对抗网络: 生成对抗网络 (GAN) 是生成领域常用的框架。GAN 包含两个模型:生成器和鉴别器。生成器旨在捕获真实示例的分布,以生成新的数据实例。相反,鉴别器(通常是二元分类器)力求尽可能准确地区分生成示例和真实示例。 通过极小极大优化过程,生成器被认为可以有效地捕获真实数据分布。某些视觉文本处理技术,如场景文本删除 ,可视为图像到图像的转换任务,其中使用 vanilla GAN 来学习从输入图像到输出图像的映射,从而解决以下优化问题:

    • L a d v = E x [ l o g D ( x , G ( x ) ) ] L D = E x , y [ l o g D ( x , y ) ] + E x [ ( 1 − l o g D ( x , G ( x ) ) ) ] L_{adv} = E_x[log D(x, G(x))]\\ L_D = E_{x,y}[log D(x, y)] + E_x[(1 − log D(x, G(x)))] Ladv=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值