搭建CRNN模型（基于windows与tensorflow）

最新推荐文章于 2025-10-28 17:29:50 发布

原创

最新推荐文章于 2025-10-28 17:29:50 发布 · 4k 阅读

15 ·

CC 4.0 BY-SA版权

本文深入解析CRNN（Convolutional Recurrent Neural Network）在光学字符识别(OCR)领域的应用，介绍其结合CNN、RNN及CTC层的独特结构，探讨模型训练与调试过程，分享英文与中文OCR的成功案例。

3.1.1.CRNN介绍

通过CNN将图片的特征提取出来后采用RNN对序列进行预测，最后通过一个CTC的翻译层得到最终结果。说白了就是CNN+RNN+CTC的结构。
Git 地址https://github.com/bgshih/crnn
论文：paper http://arxiv.org/abs/1507.05717.

3.1.2.CNN介绍

CNN结构采用的是VGG的结构，并且文章对VGG网络做了一些微调
在这里插入图片描述

3.1.3.RNN介绍

RNN网络是对于CNN输出的特征序列,每一个输入都有一个输出yt。为了防止训练时梯度的消失，文章采用了LSTM神经单元作为RNN的单元。文章认为对于序列的预测，序列的前向信息和后向信息都有助于序列的预测，所以文章采用了双向RNN网络。LSTM神经元的结构和双向RNN结构如下图所示。

在这里插入图片描述

3.1.4.CTC翻译层

测试时，翻译分为两种，一种是带字典的，一种是没有字典的。

带字典的就是在测试的时候，测试集是有字典的，测试的输出结果计算出所有字典的概率，取最大的即为最终的预测字符串

不带字典的，是指测试集没有给出测试集包含哪些字符串，预测时就选取输出概率最大的作为最终的预测字符串。

3.1.5.调试基于tensorflow的crnn

1.首先从git下载
G

最低0.47元/天解锁文章

29 条评论

晴天5757 2020.07.08
想问下楼主训练自己的数据集的话有没有步骤方法呢，求指导
- AI强仔回复我是上学威龙上学威龙 2021.05.06
  3.下载完就可以直接使用了，使用下面命令： python tools/test_shadownet.py --image_path data/test_images/test_01.jpg --weights_path model/crnn_synth90k/shadownet.ckpt --char_dict_path data/char_dict/char_dict_en.json --ord_map_dict_path data/char_dict/ord_map_en.json
- 我是上学威龙上学威龙回复AI强仔 2021.05.03
  博主，我下载好了中文的预训练模型，然后怎么读取？怎么具体应用您能说一下吗？运行那个py文件，把预训练模型放在那个文件夹里？
- AI强仔回复我是上学威龙上学威龙 2021.04.30
  时间有点久，我本地删了。可能需要翻墙下载
- 我是上学威龙上学威龙回复AI强仔 2021.04.30
  那个中文预训练的模型的网页打不开，博主能发一份给我吗？
- 晴天5757回复AI强仔 2020.07.12
  [reply]zephyr_wang[/reply]博主Git里面的中文预训练模型链接下载不了，能提供一份吗谢谢楼主
- AI强仔回复晴天5757 2020.07.09
  按照git上说明可以的

倒过来念是咕咕 2020.06.19
楼主有试过自己训练模型吗，有有没有成功呀
- AI强仔回复倒过来念是咕咕 2020.06.19
  [reply]qq_42423810[/reply]试过用那种合成的文字图片，效果还行。真实图片待定。

Woo-shiiiik 2020.04.26
谢谢谢谢我昨天下错了…那亲你知道spyder怎么输入命令运行吗…我%run加参数运行后好像没有反应……
- AI强仔回复Woo-shiiiik 2020.04.26
  我直接cmd窗口运行的，没有用spyder

qq_36498239 2020.04.14
楼主你好，我直接在在train_shadownet.py修改了要导入的图片和模型的路径（都用的绝对路径），但运行train_shadownet.py的时候报错打开pb模型失败，请问有什么解决方法吗？可以QQ询问一下你吗，qq 1254027056

念奴潘an 2020.03.11
楼主你好，我的是windows，是从 write_tfrecords.py 运行的，我添加了if __name__ == '__main__': _SAMPLE_INFO_QUEUE = Manager().Queue() _SENTINEL = ("", [])，由于tf_io_pipline_fast_tools不是main，在运行后发现NameError: name '_SAMPLE_INFO_QUEUE' is not defined，有没有好的办法可以解决，谢谢。
- Woo-shiiiik回复AI强仔 2020.04.26
  [reply]zephyr_wang[/reply]大神可以详细讲一下吗我刚入门…第一步里 _SENTINEL = ("", [])不要了吗？第二步是具体在哪里改呢…
- jiachuotong3708回复念奴潘an 2020.03.31
  [reply]weixin_44748046[/reply]你可以把writer_process_nums=8改成1 并且把# process = Process( # target=_write_tfrecords, # name='Subprocess_{:d}'.format(i + 1), # args=(tfrecords_io_writer,) # ) # process_pool.append(process) # tfwriters.append(tfrecords_io_writer) # process.start() # # for process in process_pool: # process.join()注释掉调用 _write_tfrecords(tfrecords_io_writer)就可以了
- 念奴潘an回复AI强仔 2020.03.18
  [reply]zephyr_wang[/reply]好的，谢谢哈
- AI强仔回复念奴潘an 2020.03.14
  我windows可以跑起来的。没遇到你说的这个问题。
- 念奴潘an回复AI强仔 2020.03.12
  [reply]zephyr_wang[/reply]十分感谢。我昨天把他们放到一个模块里，后来跑出来了。。。现在遇到的问题就是 process.start()，多进程跑不起来，试了好多方法还是不行，不知道是不是非要liunx才可。
- AI强仔回复念奴潘an 2020.03.11
  [reply]weixin_44748046[/reply]我是下面方法解决的，第一步定义全局变量， _SAMPLE_INFO_QUEUE =None if __name__ == '__main__': _SAMPLE_INFO_QUEUE = Manager().Queue() 第二步，在下面方法里重新指定了下是引用的全局变量。 def _init_example_info_queue(self): global _SAMPLE_INFO_QUEUE _SAMPLE_INFO_QUEUE = Manager().Queue()

yyynu 2020.03.09
楼主可以添加QQ吗有问题询问我的454167431
- AI强仔回复yyynu 2020.03.10
  已加好友
- AI强仔回复yyynu 2020.03.10
  已加好友

门萨程序媛 2020.02.28
请问char_dict_path data/char_dict/char_dict_en.json和ord_map_dict_path data/char_dict/ord_map_en.json在哪里呀
- ltj_jj回复AI强仔 2021.11.24
  博主，你好。我也是windows下测试中英文成功，想训练自己的数据集，之前做的文字检测用的icdar2015的数据集格式，现在做这个识别，数据集的格式是怎么样的？
- AI强仔回复Woo-shiiiik 2020.04.25
  可以参考3.1.5节说的，在git上可以下载到训练好的模型
- Woo-shiiiik回复AI强仔 2020.04.25
  [reply]zephyr_wang[/reply]亲可以发下训练好的模型吗，我的是.mat不知道怎么用……
- AI强仔回复yyynu 2020.03.10
  可以。在少量数据下也训练了
- yyynu回复门萨程序媛 2020.03.09
  [reply]qq_33892106[/reply]请问运行出来了吗
- AI强仔回复门萨程序媛 2020.02.29
  git上有，就在data目录里。如果自己准备训练数据的话，可以自己生成。字典的概念。