识别图片中的文字并不是很困难。如果自己训练一个文字识别的深度学习程序去识别也是可以,但是太费劲。
Tesseract-OCR是一个开源的文字识别引擎,并且支持包括中文在内的多国语言。只要将语言配置上去,就可以识别对应的语言。
如果是印刷字体,识别是没有问题的,几乎是100%准确识别,一般用于识别印刷体的话是不需要再另外训练的,如果要识别手写体就需要额外的训练,这部分以后有时间再研究。
下面是项目下载地址:
源文件地址:https://github.com/tesseract-ocr/tesseract
安装文件地址:https://github.com/UB-Mannheim/tesseract/wiki
1、安装Tesseract-OCR
我们先安装测试Tesseract-OCR,看看到底是怎么使用的。
>语言包:首先下载下来,双击安装,安装过程中注意选择语言包,要勾选chinese-simple;
>配置环境变量:安装完成之后,会生成文件夹:C:\Program Files (x86)\Tesseract-OCR,将此路径添加到环境变量;
2、使用
ouput_5是文件名,如果后面有pdf则生成双层pdf,如果后面没有则生成txt。
3、页码识别
页码识别时整个页面输入识别效果不好。最