本节内容给出基于CTC和基于注意力机制的两种场景文本识别方法,并给出各自的优势与局限性
3.2.2.1 基于CTC的无需分割的场景文本识别方法
基于时序连接序列(CTC)的自然场景文本识别算法。
时序连接序列(CTC)算法早期由Graves等人(2016)提出,用以训练循环神经网络(Cho 等,2014;Hochreiter 和Schmidhuber,1997),并直接标记未分割的特征序列。CTC 算法在多个领域均证明了它的优异性能,例如语音识别(Graves 等,2013;Graves 和Jaitly,2014)和联机手写文本识别(Graves等,2009;Graves,2012)。
对于自然场景文本识别言,CTC 算法通常作为转录层,通过计算条件概率将深度卷积神经网络或循环神经网络提取的特征序列直接解码为目标字符串序列。 得益于CTC 算法在语音处理领域的成功应用,一些研究人员(Su 和Lu,2014;He 等,2016b;Shi 等,2017b)率先将其应用于自然场景文本识别算法中以改善解码性能。例如,Shi 等人(2017b)将自然场景文本识别任务

本文介绍了基于CTC和注意力机制的场景文本识别方法。CTC方法适用于无需分割的文本识别,但存在计算成本高和对不规则文本识别有限的问题。注意力机制能有效处理不规则文本,提高识别准确性,但可能会遇到注意力漂移等问题。
最低0.47元/天 解锁文章
480

被折叠的 条评论
为什么被折叠?



