测试了一下tesseract文字识别,记录一下备忘
1) 黑白反转图不能识别,需自行反转后再识别
2)chi_sim和eng都可以识别字母,但只有字母时用eng识别精度更高:用小的识别文本集精度更高
3)用pip install tesseract安装时,需先安装tesseract软件发行版,且安装的是基于python2.x的版本。还要注意x86与x64。
4) 安装时各种字符集的训练网络下载很慢,如不需要不必全部下载。
5)软件是开源的
6)可以自行训练,手写体最好自行训练。
7)测试结果:印刷体汉字与字母识别精度较高,在95%以上。手写体识别效果较差,数字1和7,3和8容易混淆。
8)识別一张( 1920*1080)的图像需要约 5秒
参看:Tesseract-OCR的简单使用与训练 - 小LiAn - 博客园 https://www.cnblogs.com/cnlian/p/5765871.html
其它OCR相关:
https://github.com/xiaofengShi/CHINESE-OCR
本文分享了Tesseract OCR的文字识别实践经验,包括处理黑白反转图、不同语言设置下的识别精度对比、安装配置注意事项、字符集训练网络下载策略、软件开源特性、自定义训练建议及印刷体与手写体识别效果分析。
2921

被折叠的 条评论
为什么被折叠?



