1.历史方法
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。
2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好
3.network如图
图:
1)输入图片高度要一致
2)(创新性的地方)map2seq:在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:
3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:
任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是先删除重复的字母,后删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。
6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN
end
本文介绍了从图像中进行序列识别的一种端到端可训练的神经网络方法,该方法无需预处理,可以处理任意长度的序列,并且在有无特定字典的情况下都能表现出色。网络结构包括特征序列提取、BLSTM和CTC层,能够有效地处理空格和重复字母的问题。优化算法使用了Adadelta,同时应用了长方形池化和批量归一化等技巧。
420

被折叠的 条评论
为什么被折叠?



