Crnn中文end-to-end识别

最新推荐文章于 2024-03-24 09:52:44 发布

转载最新推荐文章于 2024-03-24 09:52:44 发布 · 4.9k 阅读

图像识别专栏收录该内容

30 篇文章

订阅专栏

本文介绍了一种使用CRNN模型进行中文文字识别的方法，通过生成大量合成数据进行模型训练，并结合CTPN实现了场景文字的检测与识别。

中文识别利用crnn训练英文的网络来训练中文，字符个数5529左右，中文的顺序按照tesseract开源项目复制过来的。

github:
https://github.com/bear63/sceneReco
model:
https://pan.baidu.com/s/1i5OLwt3 crnn文字识别模型
https://pan.baidu.com/s/1i4Hd9zv ctpn文字检测模型
1:样本获取

**算法论文:**
      Synthetic Data for Text Localisation in Natural Images
      Github: https://github.com/ankush-me/SynthText
**词库:**
     https://pan.baidu.com/s/10anmu  + 英文词汇 经过处理后得到大约500兆
     6000万词组
**字体:**
    ubntu系统下支持中文的字体，选了大概10种字体左右
**背景图片库:**
   http://zeus.robots.ox.ac.uk/textspot/static/db/bg_img.tar.gz
   大约有一万张分割好的图片
**算法大致过程:**
   随机从背景图片库中选出一张图片，随机从词库中选出一些词组，与背景图片分割                 -      的块进行匹配，选好字体，颜色，大小，变换等信息，将词组写入背景块中。  
   扣取背景块矩形框作为一个个样本。
**样本类似**

虎头山
王兴海
航天技术学院
古木剑

2:网络设计:

网络结构
网络分析：
1：input：输入文字块，归一化到32*w 即height缩放到32，宽度按高度的比率缩放，当然，也可以缩放到自己想要的宽度，如128（测试时统一缩放到[32，128],训练时为批次训练，缩放到[32,Wmax]）
下面以32*128（w,h）分析
2：conv3层时数据大小为256*8*32，两个pooling层宽高各除以4
3：pooling2层时步长为（2，1） dilation （1，1）
所以此时输出为256*4*33
4：bn层不改变输出的大小（就是做个归一化，加速训练收敛，个人理解），同样p3层时,w+1,所以pooling3层时，输出为512*2*34
5：conv7层时，kernel 为2*2，stride(1,1) padding(0,0)
Wnew = (2 + 2 * padW - kernel ) / strideW + 1 = 1
Hnew = 33
所以conv7层输出为512*1*33
6: 后面跟两个双向Lstm,隐藏节点都是256
Blstm1输出33*1*256
Blstm2输出33*1*5530 5530 = 字符个数 + 非字符 = 5529 + 1
最终的输出结果直观上可以想象成将128分为33份，每一份对应5530个类别的概率