【读点论文】Orientation-Independent Chinese Text Recognition in Scene Images,竖向文本检测,中文场景中常见的案例

Orientation-Independent Chinese Text Recognition in Scene Images

Abstract

  • 场景文本识别因其广泛的应用而受到广泛的关注。以往的工作更多的是通过引入语言模型或其他辅助网络来处理复杂背景的拉丁文本图像的识别问题。与拉丁文本不同,许多中文垂直文本存在于自然场景中,这给目前最先进的STR方法带来了困难。本文首次尝试通过分离文本图像的内容和方向信息来提取与方向无关的视觉特征,从而对自然场景中的水平文本和垂直文本进行鲁棒性识别。具体来说,我们引入了一个字符图像重建网络(CIRN)来恢复相应的打印字符图像,并解除了内容和方向信息的纠缠。我们在一个场景数据集上进行了中文文本识别的基准测试,结果表明,该方法确实可以通过去除内容和方向信息的纠缠来提高性能。为了进一步验证我们方法的有效性,我们还收集了一个垂直中文文本识别(VCTR)数据集。实验结果表明,在基线模型中引入CIRN后,该方法的VCTR提高了45.63%。
  • 复旦大学李斌老师团队成果列表:Bin Li - Fudan University (aimpressionist.github.io)

Introduction

  • 场景文本识别(STR)由于其广泛的应用,如交通标志识别和文本图像检索,在计算机视觉领域受到了广泛的关注。它旨在将自然图像中的文本转录成数字字符序列。从自然图像中读取文本面临许多困难,例如文本失真、部分遮挡和复杂的背景。与拉丁文本识别不同,中文文本识别面临着更多的挑战。例如常见的垂直文本和复杂的顺序模式(Benchmarking chinese text recognition: Datasets, baselines, and an empirical study)。这些独特的特征使得中文文本识别成为一项具有挑战性的任务。
  • 与拉丁文本相比,由于自然场景中常用的传统对联或招牌,中文文本更容易以垂直方向出现(如下图(b)所示)。相反,由于固有的阅读习惯不同,拉丁文垂直文本很少(如下图(a)所示)。大多数早期方法是专门为拉丁文本识别设计的,并且仅限于水平文本。因此,他们很难处理各种形状的文本实例,如弯曲文本和垂直文本,导致严重影响识别场景图像中的中文文本。
    • 在这里插入图片描述

    • 在街景图像中,大多数英文文本是水平的;相比之下,垂直的中文文本也很常见。

  • 为了处理弯曲文本,一些方法引入了一种纠偏网络来矫正不规则的文本实例或依赖2D注意机制来定位每个字符。此外,研究人员试图引入语言知识和语料库来提高弯曲文本的性能[Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition;Towards accurate scene text recognition with semantic reasoning networks]。然而,这些方法对于垂直文本识别仍然效率低下,因为垂直文本的布局与水平或弯曲文本完全不同
  • 一些汉字识别方法试图提高旋转字符模型的鲁棒性,但它们不能直接应用于文本行识别。总的来说,现有的场景文本识别方法在处理垂直中文文本方面仍然存在困难。因此,开发一个网络来学习与文本方向无关的视觉特征对于识别垂直中文文本至关重要。
  • 我们观察到,视觉特征不仅包含决定字符预测的内容信息,还包含文本方向信息。因此,本文试图从视觉特征中分离出内容和方向信息,获得与方向无关的特征,以实现垂直中文文本的准确识别。该方法由自定义ResNet编码器、基于Transformer的解码器和字符图像重建网络组成。通过对 ResNet 进行修改,编码器捕获了更多的细节并保留了更多的视觉特征。字符图像重构网络包含内容信息提取器、方向信息提取器和重构模块。内容信息提取器用于从视觉特征中获取内容信息,方向信息提取器用于提取方向信息。我们解耦水平和旋转垂直字符的内容和方向信息,并交换它们的方向信息来重建相应的打印字符图像。最后,我们使用基于转换器的解码器来捕获字符之间的语义依赖关系,以生成最终的预测。
  • 为了对现有最先进的垂直中文文本识别方法的性能进行基准测试,我们从PosterErase收集了一个垂直中文文本识别(VCTR)数据集[Self-supervised text erasing with controllable image synthesis]。实验结果表明,我们的方法在VCTR上大大优于现有的STR模型。此外,我们在通用中文文本识别数据集上取得了更好的结果。我们的方法代码和VCTR数据集可以在GitHub[github.com]上获得。本文的贡献可以概括为以下几点:
    • 由于垂直文本是影响中文场景文本识别的关键问题,我们收集了垂直中文文本识别(VCTR)数据集来测试垂直中文文本识别的性能。
    • 我们首次尝试用字符图像重建网络从视觉特征中分离出内容和方向信息,消除了文本方向的干扰。
    • 该方法在垂直中文文本识别上显著优于现有方法,并在中文场景文本识别数据集上取得了最新的结果。

Related Work

  • 场景文本识别(STR)一直是计算机视觉领域一个长期研究的课题。该领域的早期工作侧重于利用低级特征,如定向梯度描述符的直方图,连接分量等。随着深度学习的快速发展,STR研究在过去几年中取得了重大进展。根据它们的语言类别,我们将它们分为两类:拉丁文本识别和汉语文本识别。

Latin Text Recognition

  • 拉丁场景文本识别可分为规则文本识别和不规则文本识别两大类。基于CTC损失的序列到序列模型和注意力机制在常规文本识别方面取得了很大进展。然而,这些方法很难处理弯曲或旋转的文本。对于不规则文本,以前的方法倾向于将空间转换模块集成到基于注意力的框架中,以将弯曲的文本图像纠正为水平形式,但预定义的转换空间限制了其泛化能力。基于分割的方法首先检测字符,然后将字符整合到文本预测中。最近提出的一些方法尝试使用语言规则来辅助识别过程,在不规则文本识别上表现出很强的性能。例如,ABINet和VisionLAN 开发了一个将语言信息集成到文本识别中的特定模块。上述方法都是专门为拉丁文本识别而设计的,面对中文文本识别时,由于字母较大,且常见垂直文本,效果不佳。

Chinese Text Recognition

  • 由于汉字内部结构复杂,一些方法[Chinese character recognition with radicalstructured stroke trees;Chinese character recognition with augmented character profile matching]提出了汉字识别方法。DenseRAN 将汉字视为二维结构和部首的组合。STN-DenseRAN 在DenseRAN的基础上,进一步采用整流块对扭曲的字符图像进行处理。HDE 根据汉字的根级构成为每个汉字设计了唯一的嵌入向量。在[Zero-shot chinese character recognition with strokelevel decomposition]中,汉字被分解为五笔的组合,并通过基于匹配的策略将预测的笔画序列转换为特定的汉字。最近,一些著作[Privacy-preserving collaborative chinese text recognition with federated learning]重点研究中文文本识别(CTR)。例如,[Benchmarking chinese text recognition: Datasets, baselines, and an empirical study]的作者提出了CTR的基准,并引入偏旁部首级监督来提高文本识别模型在CTR上的性能。SVTR 提出了一种基于Transformer的框架,利用全局混合和局部混合分别感知字符间和字符内模式。该算法在中文场景数据集上表现良好。然而,这些方法主要集中在汉字或水平文本的识别上,而忽略了常见的垂直文本

Methodology

  • 在本节中,我们首先回顾场景文本识别中常用的编码器-解码器框架。然后,通过编码器对提取的视觉特征所包含的信息进行分析。最后,我们介绍了所提出的体系结构中每个模块的详细信息。

Generic Framework

  • 在过去的几年里,研究人员倾向于采用编码器-解码器框架来解决文本识别任务。通常,采用基于resnet的主干作为编码器提取视觉特征 F。随后,将特征 F 馈送到设计的解码器中,例如基于注意力的解码器和基于 Transformer 的解码器。这两种解码器都由两个模块组成:注意模块和预测模块。在第 t 个时间步,注意模块计算瞥见向量gt如下:

    • g t = ∑ i j α i j t f i j g_t=\sum_{ij}\alpha^t_{ij}f_{ij} gt=ijαijtfij

    • 其中 f i j f_{ij} fij 表示 F 在 (i, j) 处的特征向量, α i j t α^ t_{ij} αijt表示 f i j f_{ij} fij 在第 t 个时间步长的注意权值。最后,将 glimpse 向量gt作为预测模块的输入,以预测相应的字符或结束令牌⟨EOS⟩:

    • y t = s o f t m a x ( W t + b ) y_t=softmax(W_t+b) yt=sof

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羞儿

写作是兴趣,打赏看心情

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值