基于DBnet+CRNN+CTC的证件OCR任务，tensorflow2.x实现

最新推荐文章于 2025-10-19 16:23:23 发布

原创最新推荐文章于 2025-10-19 16:23:23 发布 · 2.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #tensorflow

深度学习同时被 2 个专栏收录

13 篇文章

订阅专栏

7 篇文章

订阅专栏

本文介绍了一项海外证件全信息识别项目的实现细节，包括四大模块：证件定位、文本检测、文本识别及信息抽取。其中文本检测采用了DBnet，文本识别使用了CRNN+CTC的方法。文中还分享了各模块的具体实施步骤及效果。

部署运行你感兴趣的模型镜像

最近初步完成了一项海外证件全信息识别的项目，主要有四大模块：证件定位（BISNET分割），文本检测（DBnet），文本识别（CRNN+CTC），信息抽取（规则）。目前，证件定位的准确率为99%；本检测的准确率为99.2%；识别的准确率为98%（以字段为单位）。本文主要整理OCR模块，有空整理完代码放到github上。由于工作比较忙，暂时没空整理代码到git上，有问题欢迎直接留言。

一.文本检测模块

考虑到证件是用户用手机拍摄，有畸变，有旋转问题，光照和遮挡问题，所以采取了DBnet的思路。关于DBnet的原理，大家可以自行搜索相关资料学习，网上介绍的资料也非常多。

1.1标注

标注方式我是采用以行为单位的文本框四边形标注，标注文档以json的格式存放。格式如图所示：

polygon的顶点坐标为浮点数，这是标注工具自动生成的，训练和验证的时候需要转成整数。

1.2 训练

见github代码。

1.3 推理

见github代码。

二.文本识别

由于海外证件不确定信息较多，如住址，职业，发证地址等，属于不定长文本识别。考虑使用crnn+ctc的思路。

2.1标注格式

文本图像，jpg格式，同名的txt文件，标签为文本图像的内容。同时还有字符映射表，也是txt文档，可根据自己的任务更改映射表的内容。

2.2 训练

见github代码。

2.3 推理

见github代码。

最后，放上代码链接地址：

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

13 条评论

图像喵 2023.07.23
信息抽取是怎么做的

看那条小溪 2022.03.23
大佬，github代码有没？非常感谢！

Leon_BUAA 2021.10.27
大佬，现在有GitHub了吗，想学习一下

Dawn向阳而生 2021.10.27
博主，自己训练项目对数据集的格式有要求吗

FAT TIGER 2021.05.25
同求gitbub，大佬~[face]emoji:013.png[/face]

奋斗的哆啦 2021.03.22
请问，对于有透视变化和角度倾斜的证件照片，如何进行校正？
- 妞总不泰迪回复奋斗的哆啦 2021.03.23
  dbnet本身支持竖向和一定角度的文本检测，如果只是OCR不矫正没有影响的其实。如果非要矫正，我考虑的是先分割后矫正

896858372 2021.03.19
大佬可以给下代码吗，谢谢！

table1024 2021.03.14
大佬，求github地址
- 妞总不泰迪回复table1024 2021.03.15
  暂时没空整理到gitHub上，有问题可以直接问我就好

番茄小能手 2021.02.26
大佬，求代码

评论 13

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。