【读点论文】EAFormer: Scene Text Segmentation with Edge-Aware Transformers通过更细致的文本边缘检测和过滤，低级图像特征助力得到精确文本分割-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43424450/article/details/141597858

EAFormer: Scene Text Segmentation with Edge-Aware Transformers

Abstract

场景文本分割旨在从场景图像中裁剪文本，通常用于帮助生成模型编辑或删除文本。现有的文本分割方法倾向于涉及各种与文本相关的监督以获得更好的性能。然而，它们中的大多数都忽略了文本边缘的重要性，而文本边缘对于下游应用至关重要。在本文中，我们提出了边缘感知变换器（Edge-Aware Transformers，简称 EAFormer），以更准确地分割文本，特别是在文本边缘。具体而言，我们首先设计一个文本边缘提取器来检测边缘并滤除非文本区域的边缘。然后，我们提出了一个边缘引导编码器，使模型更多地关注文本边缘。最后，采用基于 MLP 的解码器来预测文本蒙版。我们在常用的基准上进行了广泛的实验，以验证 EAFormer 的有效性。实验结果表明，所提出的方法比以前的方法表现更好，特别是在文本边缘的分割上。考虑到几个基准（例如 COCO_TS 和 MLT_S）的注释不够准确，无法公平地评估我们的方法，我们重新标记了这些数据集。通过实验，我们观察到，当使用更准确的注释进行训练时，我们的方法可以实现更高的性能提升。代码和数据集可在 EAFormer (hyangyu.github.io)
论文地址：[2407.17020] EAFormer: Scene Text Segmentation with Edge-Aware Transformers (arxiv.org)
EAFormer是复旦推出的AI文本分割框架。擅长在照片中找到文字，并且能很精确地把文字从背景中分离出来。EAFormer的愿景：即使文字的边缘很模糊或者背景很复杂，EAFormer也能做得很好。对于想要从图片中去除文字或者编辑文字的人来说非常有用。EAFormer是一个能让我们轻松处理图片中文字的智能助手

Introduction

在过去十年中，场景文本分割获得了显著的发展，这主要归功于深度学习的进步。文本分割模型的目标是在像素级别准确区分前景（文本区域）和背景（非文本区域）。场景文本分割在各种应用中起着至关重要的作用，例如文档分析、场景文本图像超分辨率、场景理解和文本擦除。例如，TEAN 引入文本分割结果作为辅助信息，以更好地超解析场景文本图像。
为了推动场景文本分割的发展，近年来提出了各种方法[A two-stage gan for high-resolution retinal image generation and segmentation,Textformer: Component-aware text segmentation with transformer]和数据集 [CVPR 2021] Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach,GitHub - TencentARC/BTS: BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild]。以前的场景文本分割方法倾向于引入与文本相关的监督，例如文本或字符识别监督，以提高性能。 TexRNet提出了一个预训练的字符鉴别器来引入字符识别的监督，这需要额外的字符级边界框注释。同样，PGTSNet设计了一个文本感知鉴别器来增强分割结果的可读性。此外，它们都利用各种损失来获得更好的分割性能，这可能使得选择合适的超参数来平衡多个损失变得具有挑战性。最近，TextFormer采用了识别头，使模型专注于文本细节并提高其对文本的感知。对于场景文本分割任务，有几个广泛使用的基准，例如 ICDAR13 FST 、COCO_TS 、MLT_S 、Total-Text 、TextSeg 和 BTS 。虽然这些数据集的样本似乎足以满足基于深度学习的模型的需求，但某些数据集（例如 MLT_S）的注释质量可能达不到预期标准，尤其是在文本边缘区域。这些数据集的注释是通过边界框监督获得的，无法提供与 TextSeg 和 BTS 等人工注释的数据集相同的准确度和精度。
虽然之前的方法在文本分割中取得了一定的性能提升，但它们忽略了文本边缘在实际应用中的重要性。例如，准确的文本蒙版，尤其是在文本边缘区域，可以为文本擦除任务中的文本区域修复提供更多的背景信息，如图1所示。在实验中，我们观察到传统的边缘检测算法，如Canny ，可以很好地区分文本边缘。为了充分利用传统边缘检测方法的优点来提高文本边缘的分割性能，本文提出了用于场景文本分割的边缘感知变换器（EAFormer）。具体来说，EAFormer由三个主要模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。文本边缘提取器以场景图像为输入并预测文本区域和边缘。在这个模块中，我们采用轻量级的主干来检测文本区域，并使用传统的边缘检测算法Canny来获得整个图像的边缘。为了减轻非文本区域边缘的干扰，预测文本区域的蒙版用于滤除非文本区域的边缘。对于边缘引导编码器，我们采用了 SegFormer 的框架，该框架由四个阶段组成。在该编码器的第一阶段，我们额外设计了一个对称交叉注意子模块，旨在利用过滤后的文本边缘引导编码器在第一阶段更多地关注文本边缘。最后，将边缘引导编码器的输出融合并输入到文本分割解码器中以预测文本掩码。
- 图 1：使用不同文本蒙版作为输入的下游应用程序（文本擦除）结果比较。文本边缘的更精确分割有利于文本擦除任务，因为错误预测的文本像素更少，并且为修复模型保留了更多背景信息。
为了验证 EAFormer 的有效性，我们在六个文本分割基准上进行了大量实验。结果表明，EAFormer 确实可以提高基线模型的分割性能。然而，如前所述，COCO_TS 和 MLT_S 的标注不够准确，这可能会使这两个数据集上的实验结果难以令人信服。为了解决这个问题，我们重新标注了 COCO_TS 和 MLT_S 的训练集、验证集和测试集。通过实验，我们观察到，与以前具有更精确像素级标注的方法相比，所提出的 EAFormer 仍然可以实现更好的性能。总而言之，本文的贡献如下：
- 为了在文本边缘区域获得更好的分割性能，我们提出了 EdgeAware Transformers (EAFormer) 来明确预测文本边缘并使用它们来指导以下编码器。
- 考虑到COCO_TS和MLT_S的标注质量较低，我们对其进行了重新标注进行实验，以使EAFormer在这两个数据集上的实验结果更具说服力。
- 在六个场景文本分割基准上进行的大量实验表明，所提出的 EAFormer 可以实现最先进的性能，并且在文本边缘区域表现更好。

Related Work

Scene Text Detection

现有的场景文本检测方法可分为两类：基于回归的方法和基于分割的方法。基于回归的方法将文本检测视为一项独特的对象检测任务，其目标是通过预测与锚点或像素的偏移量来定位文本区域。然而，与一般对象相比，文本在尺度和方向上表现出显著的变化。
为了处理有方向的文本，EAST 以无锚点的方式直接回归边界偏移量。虽然基于回归的方法对于四边形文本表现良好，但它们很难适应任意形状的文本。基于分割的方法将文本检测视为密集的二进制预测任务。DBNet 在分割网络中引入了可微分二值化，允许自适应阈值预测。虽然已经提出了各种文本检测方法，但我们的方法仅采用轻量级主干来检测文本区域。虽然一般分割领域的一些方法提出引入边缘信息来提高性能，但它们并不完全适合文本分割任务，这可能有两个原因：1）为了准确检测边缘，它们中的大多数需要边缘的注释，这既费时又费力。2）直接使用它们来解决文本分割可能会引入一些非文本区域的边缘，导致性能不佳。

Semantic Segmentation

语义分割是计算机视觉中的一项基本任务，涉及对输入图像中的每个像素进行分类。全卷积网络 (FCN) 可以有效地学习密集预测，以前是语义分割任务的主流。为了在多个尺度上捕获上下文信息，几种方法引入了扩张卷积或空间金字塔池化来扩大感受野。随后，引入了注意力机制来更好地捕获长距离依赖关系。最近，基于 Transformer 的语义分割方法 SegFormer 提出将分层 Transformer 编码器与轻量级 MLP 解码器相结合。由于其出色的性能，我们采用它作为我们方法的基线模型。

Scene Text Segmentation

场景文本分割旨在预测场景图像中文本的细粒度掩码。过去，文本分割方法通常依赖于阈值或低级特征对场景文本图像进行二值化。然而，这些方法通常难以处理具有复杂颜色和纹理的文本图像，导致性能不佳。最近，基于深度学习的文本分割方法应运而生。例如，SMANet 采用编码器解码器结构并引入了一个新的多尺度注意模块用于场景文本分割。TextFormer 将文本解码器引入分层分割框架以增强其感知文本细节的能力。由于以前的数据集的标记质量较低，TexRNet 提出了具有细粒度注释的 TextSeg 数据集，其中包含单词和字符级边界多边形、掩码和转录。考虑到文本分割中中文文本的缺乏，提出了一个双语文本分割数据集 BTS 。BTS 的作者还开发了 PGTSNet，它使用预训练的文本检测模型将文本分割约束在检测到的文本区域上。

Methodology

在本节中，我们详细介绍了所提出的 EAFormer。首先，我们介绍提出 EAFormer 的动机。然后，我们详细介绍了 EAFormer 的每个模块，包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后，我们介绍了我们方法的损失函数。
找文本:在照片或图片里，EAFormer能快速找到所有的文字，然后描边角:不仅能找到文字，还能特别准确地描绘出文字的边缘，哪怕是弯曲曲的地方。改背景:如果你想把图片里的文字去掉，换上新的背景，EAFormer让文字看起来像是从未有过一样。如果EAFormer碰到了新的或不同语言的文字，能很快学会并提高识别能力EAFormer - 复旦推出的AI文本分割框架 | AI工具集 (ai-bot.cn)。
EAFormer的技术原理
- 文本边缘提取器:利用Canny算法检测图像中的边缘，并结合轻量级文本检测模型来过滤非文本区域的边缘，只保留文本区域的边缘信息。
- 边缘引导编码器:基于SegFormer框架构建，通过对称交叉注意力层在编码过程中融入边缘信息，增强模型对文本边缘的感知能力。
- MLP解码器:采用多层感知机(MLP)层来融合特征并预测最终的文本mask，实现文本区域的精确分割。
- 损失函数设计:使用文本检测损失和文本分制损失两种交叉熵损失进行优化，通过超参数平衡两者权重，简化了超参数选择的复杂性。
- 数据集重新标注:针对COCO_TS和MLT S等数据集的标注质量问题，进行了重新标注，确保评估结果的可靠性和模型训练的准确性。
- 特征融合策略:在边缘引导编码器中，通过设计的对称交又注意机制仅在第一层融合边缘信息，避免了在所有层中融合边缘信息可能带来的性能下降。
- 轻量级文本检测器;在文本边缘提取器中使用，包括基于ResNet的骨干网络和MLP解码器，用于提取文本区域特征并辅助边缘过滤。

Motivation

毋庸置疑，文本边缘对于场景文本分割任务至关重要，尤其是其下游任务（如文本擦除）。准确分割文本边缘可以为文本擦除模型提供更多背景信息来填充文本区域。如图1所示，我们利用预先训练的修复模型，以不同类型的文本蒙版作为输入，对场景图像中的文本进行擦除。通过实验，我们发现文本边界框蒙版过于粗糙，无法为修复模型提供更多背景。此外，边缘分割不准确的文本蒙版会使修复模型错误地将属于文本的像素视为背景，导致擦除效果不佳。只有提供边缘分割准确的文本蒙版，修复模型才能生成令人满意的文本擦除结果。
PGTSNet 虽然意识到了文本边缘的重要性，并采用了二分类交叉熵损失来检测文本边缘的像素，但并没有明确地将容易获取的文本边缘信息作为输入信息之一。为了验证其对文本边缘的感知能力，我们对骨干网络输出的特征进行了 K-Means 聚类，其中 K 设置为 3，分别代表背景、文本边缘和文本中心。通过图 2 所示的可视化结果，我们观察到该方法在文本边缘的感知方面仍存在一定的不足。
- 图 2：PGTSNet 和 EAFormer 的特征聚类结果。可视化表明，与 EAFormer 相比，PGTSNet 几乎不能很好地感知文本边缘。
此外，我们发现传统的边缘检测算法可以得到准确的文本边缘，这可能有利于场景文本分割任务。然而，由于传统的边缘检测方法无法区分文本区域和非文本区域，大多数边缘是在非文本区域检测到的。如果将边缘检测结果直接用作输入来辅助文本分割，可能会混淆文本分割模型并对其性能产生不利影响。更多讨论见第 5 节。在下一小节中，我们将介绍我们的方法如何利用传统边缘检测算法的结果在文本分割任务中取得更好的性能。

Edge-Aware Transformers (EAFormer)

如图 3 所示，所提出的 EAFormer 由三个模块组成：文本边缘提取器、边缘引导编码器和文本分割解码器。给定输入场景文本图像 $X ∈ \R ^{3×H×W}$ ，文本边缘提取器用于获取文本区域 Et 的边缘。然后，将文本图像 X 和检测到的文本边缘 Et 输入到边缘引导编码器中以提取边缘感知特征。最后，文本分割解码器将编码器生成的特征作为输入以生成相应的文本掩码 Mt。
文本边缘提取器。由于文本边缘对于场景文本分割任务至关重要，我们提出了一个文本边缘提取器来获取文本区域的边缘。首先，我们使用传统的边缘检测算法 Canny 获取整个输入图像 Ew 的边缘。如前所述，Ew 中非文本区域的边缘可能会对文本分割产生负面影响。因此，我们在文本边缘提取器中引入了一个轻量级的文本检测模型来执行边缘过滤。具体来说，我们首先使用 ResNet-like 主干提取多级视觉特征 $^d = \{F ^d _1 , F ^d _2 , F ^d _3 , F ^d _4\}$ ，其中 $^d _i ∈ \R ^{C_i×H_i×W_i}$ 表示 ResNet-like 主干第 i 层的特征（有关文本检测主干的更多细节在补充材料中介绍）。然后，使用文本检测头来预测文本区域的掩码 Ma，可以将其表述为：
- $\mathbf {M}_a = \text {Conv}_{1\times 1}(\text {Concat}(\{\mathbf {F}^d_1, \mathbf {F}^d_2, \mathbf {F}^d_3, \mathbf {F}^d_4\})) ,(1)$