图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)

文章链接:https://arxiv.org/pdf/2407.17020

git链接:https://hyangyu.github.io/EAFormer/

亮点直击

  • 为了在文本边缘区域实现更好的分割性能,本文提出了边缘感知Transformer(EAFormer),该方法明确预测文本边缘,并利用这些边缘来引导后续的编码器。
  • 针对COCO_TS和MLT_S数据集的注释质量较低的问题,对这些数据集进行了重新标注,以提高EAFormer在这两个数据集上的实验结果的可靠性。
  • 在六个场景文本分割基准上的广泛实验表明,所提出的EAFormer能够达到最先进的性能,尤其在文本边缘区域表现更佳。

场景文本分割旨在从场景图像中裁剪文本,这通常用于帮助生成模型编辑或去除文本。现有的文本分割方法通常涉及各种文本相关的监督以获得更好的性能。然而,大多数方法忽略了文本边缘的重要性,而文本边缘对下游应用至关重要。本文提出了边缘感知Transformer(Edge-Aware Transformers),简称EAFormer,以更准确地分割文本,特别是文本的边缘。

具体而言,首先设计了一个文本边缘提取器,以检测边缘并滤除非文本区域的边缘。然后,提出了一个边缘引导编码器,使模型更加关注文本边缘。最后,采用了一个基于MLP的解码器来预测文本mask。在常用基准上进行了广泛的实验,以验证EAFormer的有效性。实验结果表明,所提出的方法在文本边缘的分割上优于以前的方法。考虑到一些基准数据集(如COCO_TS和MLT_S)的注释不够准确,无法公平评估本文的方法,重新标注了这些数据集。通过实验观察到,当使用更准确的注释进行训练时,本文的方法能够获得更高的性能提升。

方法

本节详细介绍了所提出的EAFormer。首先,介绍EAFormer的提出动机。然后,详细说明EAFormer的每个模块,包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后,介绍了本文方法的损失函数。

动机

不可否认,文本边缘对场景文本分割任务至关重要,尤其是对于其下游任务如文本擦除。准确分割文本边缘可以为文本擦除模型提供更多的背景信息,以填补文本区域。如下图1所示,利用一个预训练的修复模型,输入不同类型的文本mask,以在场景图像中擦除文本。通过实验观察到,文本边界框mask过于粗糙,无法为修复模型提供更多的背景信息。此外,边缘分割不准确的文本mask使得修复模型错误地将属于文本的像素视为背景,导致擦除效果不佳。只有提供具有准确边缘分割的文本mask时,修复模型才能生成令人满意的文本擦除结果。

尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。为了验证其感知文本边缘的能力,对主干网络输出的特征进行了K均值聚类,其中K设置为3,分别代表背景、文本边缘和文本中心。通过下图2中的可视化结果,观察到该方法在感知文本边缘方面仍存在一定的不足。

此外,研究者们发现传统的边缘检测算法可以获得准确的文本边缘,这可能有助于场景文本分割任务。然而,由于传统的边缘检测方法无法区分文本区域和非文本区域,因此大多数边缘都被检测到了非文本区域。如果直接将边缘检测结果作为输入来辅助文本分割,可能会使文本分割模型产生混淆,从而对其性能产生不利影响。

边缘感知Transformer(EAFormer)

如下图3所示,所提出的EAFormer由三个模块组成:文本边缘提取器、边缘引导编码器和文本分割解码器。给定输入的场景文本图像 X ∈ R 3 × H × W X \in \mathbb{R}^{3 \times H \times W} XR3×H×W,文本边缘提取器用于获得文本区域的边缘 E t E_t Et。然后,文本图像 X X X 和检测到的文本边缘 E t E_t Et 被输入到边缘引导编码器中,以提取边缘感知特征。最后,文本分割解码器以编码器生成的特征作为输入,生成相应的文本mask M t M_t Mt

文本边缘提取器。 由于文本边缘对场景文本分割任务至关重要,研究者们提出了一个文本边缘提取器以获得文本区域的边缘。首先,使用传统的边缘检测算法Canny来获取整个输入图像的边缘 E w E_w Ew。如前所述, E w E_w Ew 中的非文本区域的边缘可能对文本分割产生负面影响。因此,在文本边缘提取器中引入了一个轻量级的文本检测模型来执行边缘过滤。具体而言,首先使用类似ResNet的[16] 主干网络提取多级视觉特征 F d = { F 1 d , F 2 d , F 3 d , F 4 d } F^d = \{F^d_1, F^d_2, F^d_3, F^d_4\} Fd={ F1d,F2d,F3d,F4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值