搭建CRNN模型(基于windows与tensorflow)

本文深入解析CRNN(Convolutional Recurrent Neural Network)在光学字符识别(OCR)领域的应用,介绍其结合CNN、RNN及CTC层的独特结构,探讨模型训练与调试过程,分享英文与中文OCR的成功案例。

3.1.1.CRNN介绍

通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的翻译层得到最终结果。说白了就是CNN+RNN+CTC的结构。
Git 地址https://github.com/bgshih/crnn
论文:paper http://arxiv.org/abs/1507.05717.

3.1.2.CNN介绍

CNN结构采用的是VGG的结构,并且文章对VGG网络做了一些微调
在这里插入图片描述

3.1.3.RNN介绍

RNN网络是对于CNN输出的特征序列,每一个输入都有一个输出yt。为了防止训练时梯度的消失,文章采用了LSTM神经单元作为RNN的单元。文章认为对于序列的预测,序列的前向信息和后向信息都有助于序列的预测,所以文章采用了双向RNN网络。LSTM神经元的结构和双向RNN结构如下图所示。

在这里插入图片描述

3.1.4.CTC翻译层

测试时,翻译分为两种,一种是带字典的,一种是没有字典的。

带字典的就是在测试的时候,测试集是有字典的,测试的输出结果计算出所有字典的概率,取最大的即为最终的预测字符串

不带字典的,是指测试集没有给出测试集包含哪些字符串,预测时就选取输出概率最大的作为最终的预测字符串。

3.1.5.调试基于tensorflow的crnn

1.首先从git下载
G

评论 29
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值