OCR字符识别---python安装tesseract及测试

本文介绍了如何在Python中安装和配置tesseract OCR库,包括下载安装包,配置环境变量,新建系统变量,并通过命令行验证安装。此外,还讲述了如何安装pytesseract库,修改pytesseract.py文件中的tesseract_cmd路径,以及在PyCharm中进行测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

OCR识别是开源的字符识别库,在使用之前首先进行安装

  • https://digi.bib.uni-mannheim.de/tesseract/
    打开该网址下载想要的tesseract安装包,直接点击next安装,在安装过程中复制安装路径

  • 配置环境变量

  • 系统变量和用户变量的path中添加如:E:\Program Files (x86)\Tesseract-OCR(即tesseract安装路径)

  • 新建系统变量如下图:路径为E:\Program Files (x86)\Tesseract-OCR\tessdata
    在这里插入图片描述

  • 测试:安装完成后在cmd中输入tesseract -v,安装成功的测试结果如下:
    在这里插入图片描述

-安装pytesseract,便于在python中调用
由于我只有一个Python环境,因此直接在cmd窗口中运行pip install pytesseract即可

  • 修改代码
    找到Python的安装目录,在这里插入图片描述
    打开pytesseract.py文件,修改tesseract_cmd为安装路径+/tesseract.exe如下图
    在这里插入图片描述
  • 重启电脑(我的电脑是win7系统,新建系统变量之后重启才会生效)
  • 打开pycharm,输入测试程序如下:
from PIL import Image
import pytesseract
import cv2
import os

preprocess = 'blur' #thresh

image = cv2.imread('scan.jpg')
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

if preprocess == "thresh":
    gray = cv2.threshold(gray, 0, 255,cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]

if preprocess == "blur":
    gray = cv2.medianBlur(gray, 3)
    
filename = "{}.jpg".format(os.getpid())
cv2.imwrite(filename, gray)
    
text = pytesseract.image_to_string(Image.open(filename))
print(text)
os.remove(filename)

cv2.imshow("Image", image)
cv2.imshow("Output", gray)
cv2.waitKey(0)                                   

输出字符说明安装完毕
 
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值