论文笔记:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

本文介绍了从图像中进行序列识别的一种端到端可训练的神经网络方法,该方法无需预处理,可以处理任意长度的序列,并且在有无特定字典的情况下都能表现出色。网络结构包括特征序列提取、BLSTM和CTC层,能够有效地处理空格和重复字母的问题。优化算法使用了Adadelta,同时应用了长方形池化和批量归一化等技巧。
1.历史方法
1)基于字符的DCNN,比如photoOCR.单个字符的检测与识别。要求单个字符的检测器性能很强,crop的足够好。
2)直接对图片进行分类。9万个单词,组合成无数的单词,无法直接应用
3)RNN,训练和测试均不需要每个字符的位置。但是需要预处理,从图片得到特征序列,独立做的,无法端到端。

2.propose method
1)端到端
2)任意长度
3)模型尺寸小
4)不针对特定字典,有无字典表现都很好

3.network如图
图:
1)输入图片高度要一致
2)(创新性的地方)map2seq:在最后一个卷基层输出的所有通道上,从左到右逐列拼接,得到特征序列。按照宽度为1来输入到LSTM,这样可能多个长条特征才会cover一个单词。
图:

3)bp时需要seq2map,把梯度再拼成map
4)BLSTM利用双向信息,并stacked更深
5)标注序列的概率,通过CTC Layer,label不用具体到每个字符。
公式图:


任意一个label序列的概率 = 它的不同对齐方式的概率之和。
主要是空格以及重复字母的影响
note:注意映射的时候是删除重复的字母,删除空格。
示意图:“AAA” … “AA”是LSTM输出的不同预测的一个分布。 

6)优化方法采用adadelta。SGD似乎不work。
7)trick:长方形池化,BN

end 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值