最新用OCR识别身份证,用的tesseract引擎。但是google自带的中文库是在太慢了,尤其是对于性别、民族这样结果可以穷举的特征信息而言,完全可以自己训练字库。自己训练字库不仅可以提高识别速度,而且可以提高识别精度!
在训练过程中,常见的error有以下几种:
1)index >= 0 && index<size_used_:Error:Assert failed in genericvector.h, line 512
原因:
检查一下训练后type 13的数值。如果为0,说明shapetable没有配置进去。
2)empty page
原因:版面分析没有做好,没有找到字符。最好手动设置以下版面格式。如:
-psm 7 单行模式
-psm 10 单字符模式

本文记录使用Tesseract OCR引擎训练中文字符库的过程,旨在提高身份证信息识别的速度和精度。针对谷歌内置中文库的效率问题,通过自定义训练解决,并分享训练中遇到的错误及其解决方案。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



