OCR之Tesseract安装

本文详细介绍了Tesseract OCR的下载、环境变量配置、中文识别语言包的安装以及相关库的下载。通过示例程序展示了如何使用Python的pytesseract库进行图片文字识别,特别强调了对中文的支持。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


Tesseract是常用的开源OCR识别引擎,后续的图片文字识别项目我们将会调用该库进行识别,本文针对Tesseract的安装配置进行相关说明。

一、Tesseract下载

下载地址:Tesseract
Tesseract
选择最新的版本进行下载,下载完成后,解压安装在自己设定的安装路径,一直选择next即可完成安装。

二、添加环境变量

打开系统属性页面,然后点击高级,最后选择环境变量。
系统属性

环境变量
在环境变量页面,将Tesseract安装路径添加到用户变量和系统变量的Path,为验证添加环境变量是否成功,打开cmd窗口,输入命令:

tesseract -v

cmd
如果弹出tesseract的版本信息,则说明环境变量配置成功,否则说明配置失败,需要读者仔细研读上述步骤进行重新配置。
使用tesseract --list-langs来查看Tesseract-OCR支持语言。
语言

三、配置Tesseract中文识别语言包

下载路径:chi_sim
将下载的chi_sim.traineddata文件复制到安装路径下的tessdata文件夹,如图所示:
chi_sim.traineddata

四、下载相关库

pip install pytesseract
pip install Pillow

五、示例程序

1.待识别图片

示例图片

2.识别程序

import pytesseract
from PIL import Image 
path="D:\\code\\python\\opencv\\图像处理\\test.png"
image=Image.open(path)
text=pytesseract.image_to_string(image,lang='chi_sim')
print(text)#打印输出识别文字

3.识别结果

结果图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿宇阿星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值