Towards End-to-End Unified Scene Text Detection and Layout Analysis(2022)

最新推荐文章于 2025-04-08 09:25:56 发布

studyeboy

最新推荐文章于 2025-04-08 09:25:56 发布

阅读量762

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习算法图像处理文章标签：人工智能深度学习

本文链接：https://blog.youkuaiyun.com/studyeboy/article/details/127652354

深度学习同时被 3 个专栏收录

73 篇文章

订阅专栏

算法

48 篇文章

订阅专栏

图像处理

43 篇文章

订阅专栏

本文提出了一种统一场景文本检测与布局分析的方法，并引入了首个分层场景文本数据集HierText。通过一种新颖的端到端模型UnifiedDetector，实现了同时检测文本实体并进行布局分析。实验证明该模型性能优越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[PDF]
[GitHub]

摘要

场景文本检测和文档布局分析长期以来一直被视为不同图像域中的两个独立任务。在本文中，我们将它们结合在一起，介绍了统一场景文本检测和布局分析的任务。引入了第一个分层场景文本数据集以实现这一新颖的研究任务。我们还提出了一种新颖的方法，能够同时检测场景文本并以统一的方式形成文本集群。综合实验表明，我们的统一模型比多种设计良好的基线方法具有更好的性能。此外，该模型在多个场景文本检测数据集上实现了最先进的结果，而无需复杂的后处理。数据集和代码：https://github.com/google-researchdatasets/hiertext。

介绍

在自然场景和数字文档中阅读和理解文本的能力在计算机视觉的以人类为中心的应用中发挥着重要作用。虽然最先进的文本检测系统（如 [44,61]）擅长定位单个文本实体，但视觉文本理解 [2] 需要理解文本内容的语义和几何布局 [5, 7]。在当前的文献中，大多数工作都以单独的方式关注文本实体检测 [3, 18, 61] 和布局分析 [26, 58] 的单个任务，将深度学习模型的所有功能都用于特定任务的性能。我们认为，联合处理这两个密切相关的问题不仅可以产生更简单、更有效的模型，而且可以产生在所有任务中更准确的模型。此外，对于文本推理任务，例如基于文本的 VQA [4, 47] 和图像字幕 [57]，一体化、统一的文本和布局检测架构可能变得不可或缺。

文本检测和几何布局分析任务之间的划分导致了平行和独立的研究方向。文本检测器 [14,18,40,61] 通常将单词级注释（即不被空格中断的字符序列）视为唯一的监督信号。相反，几何布局分析算法 [2,26,54,58,62] 专注于数字文档，要么假设给定的单词级文本信息 [2,54,58]，要么直接预测几何结构而不推理其原子元素 [ 62]。我们问：文本实体检测和几何布局分析能不能兼顾？几何布局分析可以同时针对自然场景和数字文档吗？这些问题很重要，因为它们与现实世界的应用相关，例如用于视障人士的屏幕阅读器和基于图像的翻译。

我们的工作旨在统一文本检测和几何布局分析。我们引入了一个名为 HierText 的新图像数据集。它是第一个具有自然场景和文档中文本分层注释的数据集（图 1，顶部）。该数据集包含高质量的单词、行和段落级别的注释。 “文本行”被定义为在空间接近度上对齐的逻辑连接的单词序列。属于同一语义主题且几何连贯的文本行形成“段落”。HierText 中的图像平均每张图像超过 100 个单词，比当前最高密度的场景文本数据集 [48] 密集两倍。实验结果表明，对于独立文本检测任务，我们的数据集与其他公共数据集 [10,11,19,22,37,38,48,49,59,60] 互补。

在这里插入图片描述
除了 HierText，我们还提出了一个新颖的模型 Unified Detector，它可以同时检测文本实体并通过对文本实体进行分组来执行布局分析，如图 1 底部所示。统一检测器整合了一个端到端的实例分割模型，MaX-DeepLab [53]，检测任意形状的文本和多头自注意力层 [51] 以形成文本簇。所提出的模型通过单阶段简化管道实现端到端训练和推理。它消除了训练过程中复杂的标签生成过程 [3,44] 和推理过程中复杂的后处理 [33,63]。 Unified Detector 在统一文本检测和几何布局分析的任务上优于竞争基线，甚至是商业解决方案，证明了它的有效性。

除了统一任务之外，我们还使用现有的公共数据集（包括 ICDAR 2017 MLT [38]、TotalText [10]、CTW1500 [60]、MSRA-TD500 [59]）在独立场景文本检测任务上评估我们的模型，并实现最先进的结果。虽然微调是最近工作中的一种常见做法 [44, 63]，但所提出的模型是使用数据集的组合直接训练的，而无需对每个单独的目标数据集进行微调。统一检测器是第一个在文本检测任务上实现最佳性能并同时恢复重要文本布局信息的端到端模型。
总之，我们的核心贡献如下：
• 我们提出了统一文本检测和布局分析的任务，将两个已经独立研究但具有内在联系的任务结合在一起。
• 引入了具有分层文本注释的新的高质量数据集，以促进对该任务的研究。
• 我们提出了一个端到端的统一模型，它优于单独处理这两个任务的竞争性多阶段基线。
• 我们的模型没有复杂的后处理，在多个具有挑战性的公共文本检测基准上取得了最先进的结果。

分层文本数据集 (HierText)

数据采集

HierText 中的图像是从 Open Images v6 数据集 [24] 中收集的。我们使用公共商业 OCR 引擎 Google Cloud Platform Text Detection API (GCP)1 扫描 Open Images，以搜索带有文本的图像。我们过滤掉图像：a) 检测到的单词很少，b) 识别置信度低，c) 带有非英语主导文本。最后，我们从剩余图像中随机抽取一个子集来构建我们的数据集。获得了 11639 张图像，并进一步分为训练集、验证集和测试集。 HierText 图像具有更高的分辨率，其长边限制为 1600 像素，而之前基于 Open Images [22,48] 的数据集限制为 1024 像素，从而产生更清晰的文本。

我们以分层方式注释这些图像[16]。我们首先用多边形标注单词位置。清晰的单词也会被转录，无论其语言如何。多边形的左上角和方向定义了单词的阅读方向。然后将单词分组到文本行。段落首先使用多边形进行注释，然后文本行和单词根据它们的二进制掩码交集与相应的多边形相关联。
结果，我们获得了一个树形结构的注释层次结构。请注意，将单词聚类为行和将行聚类为段落的成本相对较低，因为不需要精确的像素级注释。

覆盖率检查：我们检查 HierText 与 Open Images 中的其他两个文本数据集（即 TextOCR [48] 和 Intel OCR [22]）之间的跨数据集覆盖率。我们只有 1.5% 的图像在 TextOCR 中，3.6% 在 Intel OCR 中。我们还确保我们的训练图像不在 TextOCR 和英特尔 OCR 的验证或测试集图像中，反之亦然。

数据集特征

表 1 比较了 HierText 和其他数据集的统计数据。 HierText 平均每张图片有 103.8 个单词；大约是第二密集数据集（即 TextOCR [48]）的文本密度的 3 倍。尽管 HierText 的图像比 TextOCR 少，但它包含的文字更清晰。最后，HierText 是唯一提供分层注释的数据集。图 2a 显示 HierText 表示与现有公共数据集不同的图像域。它具有很大比例的高文本密度图像。尽管英特尔 OCR [22] 拥有最多的图像数量和超过 100 个单词的图像覆盖率，但 HierText 包含的绝对数量更多：5.3K vs. 3.4K。图 2c 说明了 HierText 中文本的空间分布也更加均匀。在其他数据集中，文本往往位于图像的中心。每行和段落的字数分布如图2b所示。很大一部分行和段落有多个单词，这使得布局分析成为一个具有挑战性的问题。
在这里插入图片描述

总的来说，我们证明了所提出的 HierText 数据集具有独特的特征，并从其他数据集中捕获了一个未发现的域。此外，它还支持对统一文本检测和布局分析的研究。

任务和评估协议

任务： HierText 数据集有两个任务类别。第一类涉及在单词或行级别的文本实例分割。从概念上讲，字级和行级输出是可互换的，因为现代文本识别系统 [9,35,45] 对这两种类型的输入图像补丁都非常有效。对于布局分析的第二个任务，我们还通过将每个文本集群（即“段落”）视为一个对象实例，将其框架为实例分割任务，遵循之前的工作 [62]。文本行和段落的基本事实被定义为底层单词级多边形的像素级掩码的联合。

统一检测和布局分析任务的候选方法应该在单词或行级别产生文本实体检测结果，并将这些实体分组为段落。

评估：为了将这些任务评估为实例分割，我们使用最近提出的全景质量（PQ）指标 [21] 作为主要评估指标：
在这里插入图片描述
其中 T P、F P、F N 分别代表真阳性、假阳性和假阴性。在数学上，PQ 等于 ICDAR15 [19] 风格 F1 分数 [15] 与所有 TP 对的平均 IoU 的乘积。分割度量的动机是文本实体对丢失或多余的像素敏感，这会导致识别中丢失或意外字符。尽管最近有一些工作 [25, 30, 46] 研究了文本检测的评分，但它们并没有推广到复杂的几何实体，如文本行和段落。 PQ 度量以统一的方式处理单词、行和段落分割任务。因此，我们采用 PQ 度量来评估所有任务，因为它的简单性和普遍性。

方法

统一检测器

我们提出了一个端到端模型来执行统一的场景文本检测和布局分析。我们称之为统一检测器。它旨在生成（1）一组文本检测掩码和（2）同时对这些检测进行聚类，而无需复杂的后处理。

端到端文本检测：受端到端对象检测和全景分割 [6, 53] 的最新进展的启发，我们将文本检测表示为产生固定数量的 N 个软排他掩码 $\{\hat{m}_i\}^N_{i=1}$ 和 $N$ 个二元分类 $\{\hat{y}_i\}^N_{i=1}$ 。掩码满足 $\sum^N_{i=1} \hat{m}_i = 1^{H×W}$ 。二元分类 $\hat{y}_i$ 表示第 $i$ 个掩码是文本对象的概率。这种表示适用于任意形状的文本，并且可以准确地捕获单词和行级别的检测。

统一布局分析：统一检测器分析布局并通过生成亲和矩阵执行文本聚类： $\hat{A} ∈ [0, 1]^{N×N}$ 。该矩阵中的条目 $\hat{A}_{i,j}$ 表示由 $\hat{m}_i$ 和 $\hat{m}_j$ 表示的文本属于同一语义/段落组的概率。

推理：统一检测器的推理很简单。我们首先通过在掩码上应用 argmax 以将每个像素分配给一个文本对象来获得文本检测结果。然后，我们删除低置信度像素。结果，对于第 $i$ 个对象，最终掩码表示为：
在这里插入图片描述
其中 $t_m$ 是像素置信度的阈值。我们通过在二进制分类分数 $\hat{y}_i$ 上应用阈值 $t_c$ 来进一步过滤文本实例。对于布局分析推断，如果一对文本实例的亲和力得分 $\hat{A}_{i,j}$ 高于阈值，我们将其聚类，表示为 $t_A$ 。使用联合查找算法将这些连接的节点合并到集群中。

模型架构

所提出的统一检测器的架构如图 3 所示。我们的统一检测器基于最近的 Max-DeepLab [53] 端到端全景分割框架。在这个框架中，我们使用一组 N 个 D 维学习对象查询来增加输入像素。然后我们将像素和对象查询输入基于转换器的编码器 MaX-DeepLab 主干，其中像素和对象查询之间的双向通信允许模型在每个对象查询中编码文本实例。使用编码查询和像素特征，文本检测分支产生文本掩码输出， $\{\hat{m}_i\}^N_{i=1}$ 。布局分支为每对文本实例之间的关系生成亲和矩阵 $\hat{A} ∈ [0, 1]^{N×N}$ 。第三个分支产生二进制分类分数 $\{\hat{y}_i\}^N_{i=1}$ 。
在这里插入图片描述

主干：MaX-DeepLab [53] 主干由交替堆叠的沙漏 [39] 式 CNN 和建议的双路径转换器组成。沙漏样式 [39] CNN 应用于像素特征。它们迭代地对从粗分辨率到细分辨率的特征进行编码，因此可以产生高分辨率的特征。双路径转换器[53]允许像素特征和可学习对象查询之间的双向通信。它使像素空间内的注意力和对象查询之间的交互成为可能。这使得在像素特征中编码远程信息成为可能，并允许对象查询仅从像素中定位和检索文本对象。 MaXDeepLab 以输入的 $\frac{1}{4}$ 分辨率产生输出，即 $(\frac{H}{ 4} , \frac{W}{ 4} )$ 。我们敦促读者参考原始论文 [53] 了解全部细节。

文本检测分支：文本检测分支获取 MaX-DeepLab 主干的输出并生成文本掩码输出。两个全连接层从编码查询中产生掩码查询，表示为 $f ∈ R^{N×D}$ 。类似地，两个卷积层产生归一化的像素特征，表示为 $g ∈ R^{D×H'×W'}$ 。文本掩码预测是 $f$ 和 $g$ 的内积：
在这里插入图片描述
布局分支：布局分支将来自主干的编码查询作为唯一输入。为了将布局特征与文本检测特征分开，我们应用了一个额外的投影头来进行聚类嵌入投影。对于这个投影头，我们采用 3 层多头自注意力层 [51] 来获得归一化的布局特征，表示为 $h ∈ R^{N×C}$ 。我们应用布局特征的内积，然后使用温度为 $τ$ 的 sigmoid 函数来获得亲和矩阵：
在这里插入图片描述
文本分支：文本分支应用另一个 2 层全连接层和一个 sigmoid 函数来产生二进制分类分数 $\{\hat{y}_i\}^N_{i=1}$ 。

训练目标

统一检测器支持场景文本检测任务和布局分析任务的端到端训练。关键因素是在预测和groundtruth之间进行二分匹配，因为我们的模型会产生一组无序的输出。我们首先描述了检测任务的预测和groundtruth之间的匹配以及我们使用的度量。然后我们展示了针对这两个任务的统一检测器的联合优化。

文本匹配：我们采用 MaX-DeepLab [53] 中提出的 PQ 风格的相似度评分。对于一对预测 $（\hat{m}_i，\hat{y}_i）$ 和 $groundtruth（m_j，y_j）$ ，得分定义为：
在这里插入图片描述
其中 $\hat{m}_i , m_j )$ 表示这对掩码之间的 Dice 系数 [36]。它测量掩码相似度。该分数同时考虑了分类分数和掩码分数。

匹配的目标是找到 $N$ 个元素 $σ ∈ G_N$ 的排列，以最大化预测和基本事实之间的总相似性：

在这里插入图片描述
根据之前的工作 [6, 53]，我们在训练期间使用匈牙利算法 [23] 即时解决了这个最优分配问题。

文本检测损失：文本检测的训练目标采用 MaX-DeepLab [53]：
在这里插入图片描述
其中虚线变量 $\ddot{\hat{y}}_i$ 和 $\ddot{Dice}(\hat{m}_i , m_{σ(i)})$ 表示恒定权重，梯度不通过它们。 $α$ 是正负样本之间的平衡因子。

布局分析损失：我们首先定义布局分析分支输出的基本事实。每个文本实例都带有一个文本簇 ID，表示为 ${\{c_i\}^N_{i=1}}$ 。这是提议的 HierText 数据集注释的一部分。 groundtruth 亲和度矩阵可以直观地定义为：
在这里插入图片描述
然后，布局分析损失可以计算为：

最终的训练目标是文本检测损失 $L_{det}$ 、布局分析损失 $L_{lay}$ 的加权和。我们还发现结合 MaX-DeepLab [53] 中定义的语义分割损失 $L_{seg}$ 和实例辨别损失 $L_{ins}$ 很有用。因此，该模型针对以下损失函数进行了联合优化：
在这里插入图片描述

实验

在本节中，我们设置了实验来全面评估我们提出的统一检测器。首先，我们将我们的方法与竞争基线进行比较。我们展示了统一检测器实现了更好的性能。我们还进行了彻底的消融研究，以分析所提出方法的设计选择。最后，我们针对场景文本检测的唯一任务在公共数据集上训练和评估统一检测器，验证文本检测分支的有效性。

基线

尽管场景文本检测方法取得了令人难以置信的进步，并且布局分析算法的数量不断增加，但学术文献中的统一检测和布局分析任务在很大程度上仍未触及。因此，我们仔细选择以下代表非端到端方法的基线：

商业解决方案：如上所述，GCP API 是一种商业解决方案，可在单词、行和段落级别产生文本检测和识别结果。

GCN 后处理：基于 GCN [20] 的后处理方法 (GCN-PP) [54] 将 GCN 应用于文本行边界框，以将行聚类成段落。

对象检测基线：PubLayNet [62] 将布局分析公式化为实例分割任务，将文本簇预测为像素掩码。在这项工作之后，我们使用 Mask R-CNN [17] 构建了一个基线，就像在 [62] 中一样，它产生了文本集群掩码。每个这样的掩码代表一个文本簇。通过将每个检测到的文本实体（单词或行）分配给具有最大交叉区域的文本簇来执行布局分析。由于该模型不产生单词或行级别的检测，因此它与第 2 节中指定的文本实体检测模型结合使用。 5.2. 这个两阶段的基线被称为 Mask-RCNNCluster。同样，我们使用 MaX-DeepLab [53] 构建了 MaX-DeepLab-Cluster，它代表了一种更具竞争力的方法，在实例对象分割任务中具有最先进的进步。

实验设置

统一检测器：我们使用 DeepLab2 [56] 库来实现我们方法的 MaX-DeepLab 部分。我们使用 MaX-DeepLab-S 主干，输入大小为 1024 × 1024。由于数据集中文本的高密度，对象查询的数量设置为 384。查询维度分别为 D = 256 和 C = 128。在我们的主要实验中，我们只使用 HierText 作为训练数据。这些模型在 128 个 TPUv3 内核上进行训练，批量大小为 256，步长为 100K，AdamW [34] 优化器的权重衰减率为 0.05，余弦学习率从 10−3 开始。 PQ-loss、布局分析损失、实例判别损失和语义分割损失的权重分别为 3.0、1.0、1.0、1.0。平衡因子设置为 $α = 0.5$ 和 $α_L = 0.5$ 。在推理过程中，我们过滤掉置信度小于 32 像素或小于 $t_c = 0.5$ 的文本掩码。我们还使用 $t_m = 0.4$ 过滤掉低置信度像素。对于文本聚类，我们在亲和矩阵上使用 $t_A = 0.5$ 的阈值。在我们的主要实验中，统一检测器的文本检测分支被训练来检测文本行而不是单词。请注意，这些超参数中的大多数都遵循 MaX-DeepLab 的原始设置。

基线：对于 Mask-R-CNN-Cluster，我们使用来自公共 TF-Vision 存储库的实现。输入大小设置为 1024 × 1024。对于 MaX-DeepLab-Cluster，我们遵循统一检测器的相同超参数和训练设置以进行公平比较。对于 GCN-PP，我们按照 [54] 中的设置来训练线聚类模型。如上所述，这些方法只能基于检测到的文本实体进行布局分析。因此，我们将这三个基线与统一检测器的文本检测分支配对，以进行公平比较。

主要结果

我们评估我们的方法并与上面详述的基线进行比较。结果总结在表2。与基于 GCN 和基于检测的其他独立文本聚类方法相比，我们的端到端统一方法在 PQ 得分上以 1.08% 的可观优势实现了更好的布局分析性能。请注意，这些基线方法应用于统一检测器的文本检测分支的输出。因此，唯一的区别在于布局分析方法。这表明统一检测器内置的端到端文本聚类模块比独立的基线模块更有效和更好。请注意，基线是两阶段方法，需要几乎两倍的计算资源。对于文本检测，我们的系统实现了比 GCP API（62.23 与 56.17）更高的性能。
在这里插入图片描述
我们还展示了来自不同领域的图像的结果，如图 4 所示。所提出的方法能够处理各种布局，包括具有弯曲文本和不统一字体和颜色的文本集群。

消融研究

在本节中，我们进行消融研究以进一步探索设计细节。除了检测粒度实验（即 word vs line），我们使用 N = 128 个对象查询。基于单词的 vs. 基于行：我们的统一检测器框架能够在单词或行级别上执行端到端的文本实体检测，然后将这些实体聚类到段落级别作为布局分析结果。尽管就后续的识别算法而言，单词和行检测在很大程度上是可以互换的，但我们观察到布局分析的显着差异，如表 3 所示。虽然词和行级模型都受益于更多的对象查询，但行级模型始终优于其词级同行。一个潜在的原因可能是，与字级检测相比，行级检测减少了对象的数量，从而使聚类头的优化更容易。
在这里插入图片描述

文本聚类损失：我们比较了使用不同的方法来平衡聚类损失。结果列在表中4。α-平衡是第二节中描述的默认方法4.3。无特色意味着根本没有平衡。它通过 $[\sum^{N}_{ i=1} \sum^N_{j=1} y_σ(i)y_σ(j) ]^{ -1}$ 直接对损失项进行归一化。应用 $α$ 平衡因子在文本检测和布局分析方面取得了相当大的改进。平衡损失与焦点风格因素 [29] 会导致这两个任务的性能更差。
在这里插入图片描述
文本聚类头：我们将我们的默认设置，一个 3 层多头自注意力（MHSA）[51] 头与其他可行的选择进行比较，如表中所示6。我们还列出了没有布局分析分支的 MaX-DeepLab 线检测器的性能。如果我们不使用任何额外的层，文本检测性能与仅行检测器相比会下降，这表明有必要分离特征。但是，使用全连接层不能完全恢复检测文本的能力，并且会恶化布局分析。在检测和布局任务中，使用 1 层 MHSA 比仅使用全连接层要好。这是直观的，因为 Transformer 的 [51] 架构块为文本实体之间的交互提供了更强的建模。最后，额外的变压器层提高了性能。
在这里插入图片描述

公共数据集上的场景文本检测

在本节中，我们在最广泛使用的场景文本检测基准上评估我们的模型。我们在 Sec 中采用相同的训练和优化设置。 5.2 除了布局分析分支被排除，因为其他公共数据集没有布局标签。我们使用 N = 384 个对象查询。我们不会从任何检查点初始化我们的模型。我们也没有在任何合成数据集上进行预训练。我们直接在公共数据集的联合上进行训练，而不对其中任何一个进行微调3。我们使用最后一次训练迭代的检查点直接评估模型。我们评估以下 4 个基准：MLT 17 [38]、Total-Text [10]、CTW1500 [60] 和 MSRA-TD500 [59]。结果和与以前论文的比较总结在表中5。总体而言，与最先进的方法相比，我们的检测器具有更高的召回率和更低的精度。值得注意的是，即使曲线文本在训练数据集中所占比例很小，我们的模型仍然在曲线文本数据集 CTW1500 和 Total-Text 上表现出色，显示了所提出方法的适应性。
在这里插入图片描述
对于单词检测，我们在 MLT 17 上取得了最先进的结果 (77.24)。仅在其他公共数据集上进行训练时，性能仍然非常具有竞争力 (76.78)。在 Total-text 上，无论使用 HierText（87.94 和 87.90），我们都实现了最先进的技术。

对于线检测，我们在 CTW1500 和 MSRA-TD500 上取得了非常有竞争力的结果，而无需在 HierText 上进行训练。当我们在训练数据（84.88 → 85.97 和 86.69 → 87.70）中添加 HierText 时，我们观察到了相当大的改进。这表明 HierText 是对公共线路数据集集合的有益补充。

结论

在本文中，我们激发了统一场景文本检测和布局分析的任务。为了促进对这个方向的研究，我们收集了一个带有分层文本注释的数据集。我们进一步提出了一种用于统一检测和布局分析的端到端模型，该模型优于以前的方法，同时大大简化了流程。借助新的任务、数据集和模型，我们推动了图像中文本提取和理解的范围，并为下游任务提供了更好的支持。