【文字识别】SRN - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

全局语义推理模块在文本识别中的应用

原创已于 2022-12-23 14:07:46 修改 · 749 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #论文阅读

于 2022-12-23 14:01:20 首次发布

OCR 专栏收录该内容

4 篇文章

订阅专栏

该博客介绍了针对传统RNN在文本识别中局限性的新方法——全局语义推理模块（GSRM）。GSRM采用多路并行传输方式捕获全局语义上下文，提高了模型的鲁棒性和效率。网络结构包括骨干网络、并行视觉注意模块、GSRM和视觉-语义融合解码器。实验结果显示，该模型在英文和中文文本识别任务上表现出色，尤其在弯曲文本识别上具有优势。

提出背景

通常的识别模型，例如CRNN，只使用RNN来隐式的建模语义信息。然而，我们发现基于RNN的方法存在一些明显的缺点，如时间依赖的解码方式和语义上下文的单向串行传输，这极大地限制了RNN的语义信息和计算效率。

其中引入了一个全局语义推理模块（GSRM），通过多路并行传输的方式来捕获全局语义上下文。
请添加图片描述

对比multi-way并行模式，one-way串行模式有以下几个缺点：

从每个解码时间步长只能感知非常有限的语义上下文。
当在较早的step出现错误解码时，可能会传递错误的语义信息并导致错误积累。
总是耗时且效率低。

因此文章提出了全局语义推理模块：global semantic reasoning module（GSRM），GSRM以一种新颖的多路并行传输的方式来考虑全局语义上下文。多路并行传输可以同时感知一个单词或文本行中所有字符的语义信息，从而更加鲁棒和有效。此外，错误的单个字符的内容只能对其他step造成相当有限的负面影响。