一、安装
(1) pycharm
(2) python 3
(3) pip install pillow pip install pytesseract
(4) 下载识别引擎tesseract-ocr,解压安装
二、 代码
# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('show.jpg'),lang='chi_sim') #设置为中文文字的识别
text=pytesseract.image_to_string(Image.open('test.png'),lang='eng') #设置为英文或阿拉伯字母的识别
print(text)
三、常见错误
(1)FileNotFoundError:[WinError 2]系统找不到指定文件
解决办法:打开文件pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
(2)pytesseract.pytesseract.TesseractError
解决办法:打开文件pytesseract.py,找到image_to_string,指定config的参数,如下:
tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
def image_to_string(image, lang=None, boxes=False, config=tessdata_dir_config):