pytesseract可以用来进行简单的图形验证码识别,很方便。在windows下的配置需要花些功夫,完整配置方法如下:
1、安装python、pip
2、安装 pillow、pytesseract模块:
pip install pillow
pip install pytesseract
3、下载tessearct-ocr.exe文件,并安装
4、安装完毕后,修改pytesseract.py源码:
找到 tesseract_cmd=”tesseract”这一行,将后面的tesseract改为tessearct-ocr.exe在本机的安装目录,如:c:\Program Files (x86)\Tesseract-OCR\tesseract.exe。
5、此时如果在代码中运行
text = pytesseract.image_to_string(img)
会报错:pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file \Program Files (x86)\Tesseract-OCR\tessdata/chi_sim.traineddata’)
解决方法,调用时在后面加上config参数,内容为你的tessdata所在路径即可: