AttentionOCR Pytorch中文识别程序

最新推荐文章于 2025-06-30 16:00:11 发布

农夫山泉2号

最新推荐文章于 2025-06-30 16:00:11 发布

阅读量6.3k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： PYTHON pytorch 文章标签： pytorch ocr attentionocr 文字识别文字识别程序

本文链接：https://blog.youkuaiyun.com/u011622208/article/details/85781485

106 篇文章

订阅专栏

80 篇文章

订阅专栏

Pytorch AttentionOCR 中文端到端的文字识别程序完全可用

总体结构

本项目在CRNN的基础上进行修改完成的，基于Pytorch实现，程序完成可用
整体流程为：encoder+decoder
encoder采用CNN+biLSTM模型
decoder采用Attention模型
在这里插入图片描述

encoder部分采用和crnn一样的模型结构，输入是32pix高的字符图片，宽度不定，但为了batch训练，图片的宽度需要统一，输出为特征矩阵。
在cnn特征提取部分，高度方向经过了4个pooling和一个卷积(valid模式)，总共会使得原图的高度缩小pow(2,5)倍，即缩小32倍，宽度方向只是经历2个pooling和一个卷积(valid模式)，最后的尺寸为width/4+1。举个例子,假设输入的是4张32* 280的彩色图片，最后的特征矩阵为: 4 * 1 * 71* 512
encoder第二部分，通过BidirectionalLSTM进行前后序列特征的增强。举个例子，前面cnn的特征矩阵输出为4* 1 * 71*512，这里以一张图片为例，一张图片为71 * 512，71可以理解为宽度方向有71个字符，512可理解为每个字符的特征向量，送入BiLSTM时，就是第1个字符的512，第2个字符的512，第3个字符的512，…,特征的宽度方向看成序列，依次送入BiLSTM。总结，其实就是一个特征增强。看资料这里也可以用con1d代替，有待实验。经过BiLSTM之后特征为4 * 71 * 256，256为BiLSTM隐藏节点的个数

decoder部分主要做不定长文字的识别，和图像描述很像，就是不定长序列（文字）的生成，所以需要用到RNN。
总体流程

现在就可以将4* 1*256输入RNN，RNN后在接一个linear和softmax，但是很多模型都会对权重CNN特征在做一些操作，不过最后送入RNN的为4 * 1 * 256，表示当前时刻最可能（attention权重）出现的字符。