摘要
场景文本检测和文档布局分析长期以来一直被视为不同图像域中的两个独立任务。在本文中,我们将它们结合在一起,介绍了统一场景文本检测和布局分析的任务。 引入了第一个分层场景文本数据集以实现这一新颖的研究任务。 我们还提出了一种新颖的方法,能够同时检测场景文本并以统一的方式形成文本集群。综合实验表明,我们的统一模型比多种设计良好的基线方法具有更好的性能。 此外,该模型在多个场景文本检测数据集上实现了最先进的结果,而无需复杂的后处理。 数据集和代码:https://github.com/google-researchdatasets/hiertext。
介绍
在自然场景和数字文档中阅读和理解文本的能力在计算机视觉的以人类为中心的应用中发挥着重要作用。 虽然最先进的文本检测系统(如 [44,61])擅长定位单个文本实体,但视觉文本理解 [2] 需要理解文本内容的语义和几何布局 [5, 7]。 在当前的文献中,大多数工作都以单独的方式关注文本实体检测 [3, 18, 61] 和布局分析 [26, 58] 的单个任务,将深度学习模型的所有功能都用于特定任务的性能。 我们认为,联合处理这两个密切相关的问题不仅可以产生更简单、更有效的模型,而且可以产生在所有任务中更准确的模型。 此外,对于文本推理任务,例如基于文本的 VQA [4, 47] 和图像字幕 [57],一体化、统一的文本和布局检测架构可能变得不可或缺。
文本检测和几何布局分析任务之间的划分导致了平行和独立的研究方向。 文本检测器 [14,18,40,61] 通常将单词级注释(即不被空格中断的字符序列)视为唯一的监督信号。 相反,几何布局分析算法 [2,26,54,58,62] 专注于数字文档,要么假设给定的单词级文本信息 [2,54,58],要么直接预测几何结构而不推理其原子元素 [ 62]。 我们问:文本实体检测和几何布局分析能不能兼顾? 几何布局分析可以同时针对自然场景和数字文档吗? 这些问题很重要,因为它们与现实世界的应用相关,例如用于视障人士的屏幕阅读器和基于图像的翻译。
我们的工作旨在统一文本检测和几何布局分析。 我们引入了一个名为 HierText 的新图像数据集。 它是第一个具有自然场景和文档中文本分层注释的数据集(图 1,顶部)。 该数据集包含高质量的单词、行和段落级别的注释。 “文本行”被定义为在空间接近度上对齐的逻辑连接的单词序列。 属于同一语义主题且几何连贯的文本行形成“段落”。HierText 中的图像平均每张图像超过 100 个单词,比当前最高密度的场景文本数据集 [48] 密集两倍。 实验结果表明,对于独立文本检测任务,我们的数据集与其他公共数据集 [10,11,19,22,37,38,48,49,59,60] 互补。

除了 HierText,我们还提出了一个新颖的模型 Unified Detector,它可以同时检测文本实体并通过对文本实体进行分组来执行布局分析,如图 1 底部所示。统一检测器整合了一个端到端的实例分割模型 ,MaX-DeepLab [53],检测任意形状的文本和多头自注意力层 [51] 以形成文本簇。 所提出的模型通过单阶段简化管道实现端到端训练和推理。 它消除了训练过程中复杂的标签生成过程 [3,44] 和推理过程中复杂的后处理 [33,63]。 Unified Detector 在统一文本检测和几何布局分析的任务上优于竞争基线,甚至是商业解决方案,证明了它的有效性。
除了统一任务之外,我们还使用现有的公共数据集(包括 ICDAR 2017 MLT [38]、TotalText [10]、CTW1500 [60]、MSRA-TD500 [59])在独立场景文本检测任务上评估我们的模型,并实现 最先进的结果。虽然微调是最近工作中的一种常见做法 [44, 63],但所提出的模型是使用数据集的组合直接训练的,而无需对每个单独的目标数据集进行微调。 统一检测器是第一个在文本检测任务上实现最佳性能并同时恢复重要文本布局信息的端到端模型。
总之,我们的核心贡献如下:
• 我们提出了统一文本检测和布局分析的任务,将两个已经独立研究但具有内在联系的任务结合在一起。
• 引入了具有分层文本注释的新的高质量数据集,以促进对该任务的研究。
• 我们提出了一个端到端的统一模型,它优于单独处理这两个任务的竞争性多阶段基线。
• 我们的模型没有复杂的后处理,在多个具有挑战性的公共文本检测基准上取得了最先进的结果。
相关工作
场景文本和文档数据集
已经有各种各样的场景文本数据集和文档数据集。 场景文本数据集范围从直文本 [19] 到弯曲文本 [10,60]、稀疏文本到密集文本 [48,50]、单语文本 [10,19] 到多语言文本 [37,38]、单词级别到行 级别 [59, 60],从更窄的图像域到更宽的图像域 [22, 48],特征不同。然而,这些数据集只关注单个单词或文本行的检索。 还有一些数据集为基于文本的 VQA [48] 和图像字幕 [57] 提供额外的高级注释。 但是,它们专注于特定的任务,不分析文本的布局,这在下游任务中具有普遍的用途。 文档数据集 [1, 12, 13, 27, 62] 只为布局分析提供注释,而不标记原子实体,即单词。此外,这些数据集仅包含特定领域的扫描或数字文档,例如学术论文 [62] 和历史报纸 [13]。 文本阅读顺序数据集 [27] 仅包含具有明确阅读顺序的图像,例如产品标签和说明手册,因此不具有通用性。 所提出的数据集是第一个允许对一般自然图像进行联合检测和布局分析的数据集。
场景文字检测
最近,场景文本检测研究 [32] 主要集中在不规则形状文本的表示和后处理方法上,该方法从单词或字符中心区域、像素级方向和文本半径等几何属性中恢复文本轮廓 [3、14、28、33、44、55]。 文本的自定义表示使标签生成过程和后处理复杂化,例如字符中心区域的半监督和迭代生成 [3]、使用 Vatti 裁剪 [52] 的边界收缩和恢复 [28] 以及多边形非极大值抑制 [14] . 赖西等人。 [41] 引入了端到端检测器 DETR [6] 来使用旋转边界框检测文本,但它不处理弯曲文本。 此外,这些作品只为文本检测任务提供了解决方案。 相反,我们的研究致力于将文本检测和布局分析与端到端神经网络相结合,从而大大简化了整个流程。
布局分析
在图像中对象检测 [17, 42] 和语义分割 [8, 31] 的成功推动下,文档中的布局分析在一些工作中也被视为检测和分割任务 [26,43,62],其中检测器模型是 训练以将语义连贯的文本块检测为对象。 这些方法无法产生单词或行级别的检测,并且只能与独立的文本检测器一起使用,从而增加了管道的复杂性。另一个工作分支 [54] 采用分层视图,并在最精细的粒度(即单个单词)上应用基于图形的模型来分析布局。 所有这些现有技术都主要集中在文档数据集上。 与这些作品不同,我们将布局分析引入场景文本域,并提出了端到端的统一模型。
分层文本数据集 (HierText)
数据采集
HierText 中的图像是从 Open Images v6 数据集 [24] 中收集的。 我们使用公共商业 OCR 引擎 Google Cloud Platform Text Detection API (GCP)1 扫描 Open Images,以搜索带有文本的图像。 我们过滤掉图像:a) 检测到的单词很少,b) 识别置信度低,c) 带有非英语主导文本。 最后,我们从剩余图像中随机抽取一个子集来构建我们的数据集。 获得了 11639 张图像,并进一步分为训练集、验证集和测试集。 HierText 图像具有更高的分辨率,其长边限制为 1600 像素,而之前基于 Open Images [22,48] 的数据集限制为 1024 像素,从而产生更清晰的文本。
我们以分层方式注释这些图像[16]。我们首先用多边形标注单词位置。 清晰的单词也会被转录,无论其语言如何。 多边形的左上角和方向定义了单词的阅读方向。 然后将单词分组到文本行。 段落首先使用多边形进行注释,然后文本行和单词根据它们的二进制掩码交集与相应的多边形相关联。
结果,我们获得了一个树形结构的注释层次结构。请注意,将单词聚类为行和将行聚类为段落的成本相对较低,因为不需要精确的像素级注释。
覆盖率检查:我们检查 HierText 与 Open Images 中的其他两个文本数据集(即 TextOCR [48] 和 Intel OCR [22])之间的跨数据集覆盖率。 我们只有 1.5% 的图像在 TextOCR 中,3.6% 在 Intel OCR 中。 我们还确保我们的训练图像不在 TextOCR 和英特尔 OCR 的验证或测试集图像中,反之亦然。
数据集特征
表 1 比较了 HierText 和其他数据集的统计数据。 HierText 平均每张图片有 103.8 个单词; 大约是第二密集数据集(即 TextOCR [48])的文本密度的 3 倍。 尽管 HierText 的图像比 TextOCR 少,但它包含的文字更清晰。 最后,HierText 是唯一提供分层注释的数据集。 图 2a 显示 HierText 表示与现有公共数据集不同的图像域。 它具有很大比例的高文本密度图像。 尽管英特尔 OCR [22] 拥有最多的图像数量和超过 100 个单词的图像覆盖率,但 HierText 包含的绝对数量更多:5.3K vs. 3.4K。图 2c 说明了 HierText 中文本的空间分布也更加均匀。 在其他数据集中,文本往往位于图像的中心。 每行和段落的字数分布如图2b所示。 很大一部分行和段落有多个单词,这使得布局分析成为一个具有挑战性的问题。


总的来说,我们证明了所提出的 HierText 数据集具有独特的特征,并从其他数据集中捕获了一个未发现的域。 此外,它还支持对统一文本检测和布局分析的研究。
任务和评估协议
任务: HierText 数据集有两个任务类别。第一类涉及在单词或行级别的文本实例分割。 从概念上讲,字级和行级输出是可互换的,因为现代文本识别系统 [9,35,45] 对这两种类型的输入图像补丁都非常有效。 对于布局分析的第二个任务,我们还通过将每个文本集群(即“段落”)视为一个对象实例,将其框架为实例分割任务,遵循之前的工作 [62]。 文本行和段落的基本事实被定义为底层单词级多边形的像素级掩码的联合。
统一检测和布局分析任务的候选方法应该在单词或行级别产生文本实体检测结果,并将这些实体分组为段落。
评估:为了将这些任务评估为实例分割,我们使用最近提出的全景质量(PQ)指标 [21] 作为主要评估指标:

其中 T P、F P、F N 分别代表真阳性、假阳性和假阴性。 在数学上,PQ 等于 ICDAR15 [19] 风格 F1 分数 [15] 与所有 TP 对的平均 IoU 的乘积。 分割度量的动机是文本实体对丢失或多余的像素敏感,这会导致识别中丢失或意外字符。 尽管最近有一些工作 [25, 30, 46] 研究了文本检测的评分,但它们并没有推广到复杂的几何实体,如文本行和段落。 PQ 度量以统一的方式处理单词、行和段落分割任务。 因此,我们采用 PQ 度量来评估所有任务,因为它的简单性和普遍性。
方法
统一检测器
我们提出了一个端到端模型来执行统一的场景文本检测和布局分析。 我们称之为统一检测器。 它旨在生成(1)一组文本检测掩码和(2)同时对这些检测进行聚类,而无需复杂的后处理。
端到端文本检测:受端到端对象检测和全景分割 [6, 53] 的最新进展的启发,我们将文本检测表示为产生固定数量的 N 个软排他掩码 { m ^ i } i = 1 N \{\hat{m}_i\}^N_{i=1} { m^i}i=1N和 N N N 个二元分类 { y ^ i } i = 1 N \{\hat{y}_i\}^N_{i=1} { y^i}i=1N。 掩码满足 ∑ i = 1 N m ^ i = 1 H × W \sum^N_{i=1} \hat{m}_i = 1^{H×W} ∑i=1Nm^i=1H×W 。 二元分类 y ^ i \hat{y}_i y^i 表示第 i i i 个掩码是文本对象的概率。 这种表示适用于任意形状的文本,并且可以准确地捕获单词和行级别的检测。
统一布局分析:统一检测器分析布局并通过生成亲和矩阵执行文本聚类: A ^ ∈ [ 0 , 1 ] N × N \hat{A} ∈ [0, 1]^{N×N} A^

本文提出了一种统一场景文本检测与布局分析的方法,并引入了首个分层场景文本数据集HierText。通过一种新颖的端到端模型UnifiedDetector,实现了同时检测文本实体并进行布局分析。实验证明该模型性能优越。
最低0.47元/天 解锁文章
912

被折叠的 条评论
为什么被折叠?



