OCR之CRNN论文笔记

4.CRNN原理介绍

本文主要是根据论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》翻译总结而来。CRNN可以识别不同大小,不同长度的图片文字。论文还识别了乐谱,理论上该模型也可以有效的识别中文,不区分语言。

4.1.1.CRNN摘要

Convolutional Recurrent Neural Network (CRNN), 顾名思义,它是 CNN 和 RNN的结合体。最后又加了CTC。

4.1.2.CRNN模型结构

如下图所示,包括三层,从下到上分别是卷积层、RNN层、翻译层。卷积层提取图片特征。RNN层采用的是LSTM。在卷积层和RNN层中间创建了一个Map-to-Sequence层。翻译层包括两种,一种基于字典的,一种不基于字典的。翻译层把RNN特征转换成结果标签。模型结构如下图。

在这里插入图片描述

在这里插入图片描述
在第3、4层使用1*2的windows代替正方形的windows,这个微小的调整增加了特征的长度,因此产生更长的特征序列。
使用了batch normalization 技术。
CRNN的所有层使用权重共享连接,同时没有全连接层,所以参数较少,占用内存较小。

4.1.3.特征提取CNN

1.全连接层被去掉了。
2.所有图片需相同高度输入,该模型是100*32,来提升训练效率。
3.按1像素宽度的列读取图片特征。如下图,是一系列特征的拼接。
在这里插入图片描述

4.1.4.Transcription层,CTC

Transcription层是将lstm层的输出与label对应,采用的技术是CTC。
CTC,Connectionist Temporal Classification,用来解决输入序列和输出序列难以一一对应的问题。
对于一对输入输出(X,Y)来说,CTC的目标是将下式概率最大化
在这里插入图片描述
解释一下,对于RNN+CTC模型来说,RNN输出的就是Pt概率,t表示的是RNN里面的时间的概念。乘法表示一条路径的所有字符概率相乘,加法表示多条路径。因为上面说过CTC对齐输入输出是多对一的,例如he-l-lo-与hee-l-lo对应的都是“hello”,这就是输出的其中两条路径,要将所有的路径相加才是输出的条件概率.
基于字典的模式,其实是就是上面CTC的基础上,在获得结果时,又从字典查了一遍,来更加提高准确率,而没有字典的就只能取高概率的结果,少了从字典查这一步。

4.1.5.模型训练

模型输入(I,I),I代表输入的图片,I代表实际的文字结果。训练结果就是最小化下面的函数。
在这里插入图片描述
其中y是cnn和rnn输出的结果,上面的函数没有任何的人工处理,相当于是直接的对输入和输出进行计算,故是端到端的模型(end-to-end)。
使用的是随机梯度下降(SGD)进行训练的。
使用ADADELTA来自动调整学习率。

4.1.6.乐谱识别

因为训练样本较少,对模型的进行了修剪。删除了第4和第6层的卷积层,2层的双向LSTM变成了2层单向的LSTM.
该模型在乐谱识别上也取得了优秀的结果。

OCR(Optical Character Recognition)是一种光学字符识别技术,用于将印刷或手写文字转换成数字化文本。CRNN(Convolutional Recurrent Neural Networks)是一种深度学习模型,结合了卷积神经网络和循环神经网络,常用于OCR领域的文本识别任务。 国内外在OCRCRNN领域的研究现状如下: 国内研究现状: 1. 针对印刷体文字识别,国内研究人员主要关注于模型优化和数据增强。如利用自监督学习方法提高模型准确度,使用GAN生成样本进行数据增强等。 2. 针对手写汉字识别,国内研究人员主要关注于数据集构建和模型设计。如构建了包含数十万个汉字样本的数据集,设计了基于CRNN的多尺度特征融合模型等。 3. 针对OCR在场景文字识别中的应用,国内研究人员主要关注于文字检测和识别的联合训练。如利用端到端的网络结构进行文字检测和识别的联合训练,提高场景文字识别的准确度。 国外研究现状: 1. 针对OCR技术在多语言识别中的应用,国外研究人员主要关注于多语言的OCR模型设计和跨语言的迁移学习。如利用多语言训练数据进行迁移学习,提高跨语言OCR的准确度。 2. 针对OCR技术在图像处理中的应用,国外研究人员主要关注于OCR技术在图像去噪、图像增强、图像分割等方面的应用。如利用OCR技术进行文本线条分割,提高文本检测的准确度。 3. 针对OCR技术在实际场景中的应用,国外研究人员主要关注于OCR技术在车牌识别、身份证识别、银行卡识别等方面的应用。如利用OCR技术在车牌识别中进行车型识别,提高车牌识别的准确度。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值