一、安装pytesseract
python-tesseract是python的光学字符识别(OCR)工具,它可以识别并“读取”嵌入图像的文本。安装命令:pip install pytesseract
Python-tesseract是Google的Tesseract-OCR引擎的包装器。它作为独立的调用脚本也很有用,因为它可以读取Python Imaging Library支持的所有图像类型,包括jpeg,png,gif,bmp,tiff等,而tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。
二、安装识别引擎tesseract-ocr
Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢,但是工作良好。 tesseract-ocr默认只支持tiff和bmp。此外,如果用作脚本,Python-tesseract将打印已识别的文本,而不是将其写入文件。 此外,安装好
下载地址:https://github.com/UB-Mannheim/tesseract/wiki ,选择对应版本下载即可。
注意:
1、安装之后,配置环境变量,将安装目录放到系统变量的path 下,这样直接可以在cmd 下,直接tesseract,输出相应信息即可
2、pycharm 需要运行的话,需要更改 pytesseract.py文件,将A 由B、C任意一个替代即可。
A. tesseract_cmd = 'tesseract'
B.tesseract_cmd = 'C:/Program Files (x8