【文本检测与识别白皮书-3.2】第一节：基于分割的场景文本识别方法

原创

于 2022-10-31 14:12:41 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #人工智能

本文介绍场景文本识别方法，包括基于分割和无需分割两类。基于分割的方法需定位字符位置，但依赖单字符分割性能；无需分割的方法是主流，包含图像预处理、特征提取、序列建模和预测转录四个阶段，各阶段有多种算法，不过复杂设计会增加消耗。

3.2技术背景——文本识别方法

3.2.1 基于分割的场景文本识别方法

基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等，2012;Bissacco 等，2013;Jaderberg 等，2014)，通常包括3 个步骤:图像预处理、单字符分割和单字符识别。基于分割的自然场景文本识别算法通常需要定位出输入文本图像中包含的每个字符的所在位置，通过单字符识别器识别出每一个字符，然后将所有的字符组合成字符串序列，得到最终的识别结果。

一个早期的自然场景文本识别系统(Wang 等，2011)，以单字符的得分和位置作为系统输入，利用图形模型从一个特定的词典中找到与识别结果相对应的最佳匹配文本，将其作为最终的识别结果。该方法不仅在识别性能上超过了当时最领先的商用OCR 系统ABBYY，同时也奠定了自然场景文本识别领域的基准性能。受启发于深度卷积神经网络在视觉理解任务(LeCun 等，1998)的成功应用，堆叠多层神经网络的无监督特征学习方式被广泛应用于自然场景文本识别任务( Wang 等， 2012; Liu 等，2016c;Mishra 等，2016)，用以训练一个高性能的字符识别模块。

特别地，字符间距算法或集束搜索(beam search)算法(Liu 等，2002)被用于处理后续字符串转录，从一个特定的字典中匹配到最佳的识别结果。为了进一步改善自然场景文本识别算法的识别性能，尺度不变特征变换(scale-invariant feature transform，SIFT)描述子(Phan 等，2013)、笔画(Yao等，2014b)及中级视觉特征(Gordo，2015)等算法被用于提取更鲁棒的文本图像视觉特征表达。

具体而言，与Wang 等人(2011)不同，Phan 等(2013)将基于分割的识别算法中的单字符识别任务视为寻找字符集与特定字典的最佳匹配任务，通过在任意方向上提取文本图像的尺度不变特征变换描述子，获取图像特征表达，用于后续的自然场景文本识别。Yao 等人(2014b)为单字符识别器设计了一个新颖的特征表达，即笔画(Strokelets)，可以通过字符边框位置由深度神经网络自动地学习得到，并从多个图像尺度上捕获字符的结构特征。经过大量的实验验证及可视化分析得出，笔画特征在鲁棒性、泛化性和可解释性上都显