【论文阅读】Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution
摘要
一些提出的解决文本图像的超分辨率方法忽略了笔画的视觉质量(文本的原子单位)在文本识别中起着至关重要的作用这一事实。当人类观察低分辨率文本图像时,他们会固有地使用部分笔画级细节来恢复整体字符的外观。受格式塔心理学的启发,本文提出了一种包含笔画聚焦模块(SFM)的笔画感知场景文本图像超分辨率方法,以专注于文本图像中字符的笔画级内部结构。具体来说,本文尝试设计用于在笔划级别分解英文字符和数字的规则,然后预训练文本识别器以提供笔划级别的注意力图作为位置线索,以控制生成的超分辨率图像与生成的超分辨率图像之间的一致性。
方法
Pixel-wise Supervision Module
与Scene Text Telescope: Text-Focused Scene Image Super-Resolution相同
利用L2损失衡量:
Stroke-Focused Module
为了利用更细粒度的注意力图,我们在两个合成数据集上预训练了一个基于 Transformer 的识别器,包括 Synth90k 和 SynthText ,笔画级别标签。 更具体地说,给定字符级标签 cGT = {c1, c2, …, ct},我们分解每个字符并将它们连接起来以构造笔画级标签 sGT = {s1, s2, …, st0} , 其中 t 和 t0 表示两