文本识别学习开始第一天

文本识别学习开始第一天

安装tesseract

查过资料,tesseract是也是一种开源的文本识别库(引擎),就好像OpenCV一样啦,我这次学习是基于Python的,首先安装tesseract。
官网下载非常慢,你们可以试试。tesseract官方下载链接
这里下载的很快,放上链接。版本不太新,够用

下载完是一个exe文件,点击一步步安装就行了。
在这里插入图片描述和OpenCV一样,需要配置环境变量(因为你需要调用人家里面的函数,方法等)。在系统变量PATH里配置
在这里插入图片描述

在cmd中测试是否安成功:
输入命令:Tesseract -v
在这里插入图片描述还需要安装python文本识别的文本识别模块pytesseract
在终端用pip install pytesseract 就OK!
原理就是pytesseract 调用tesseract,最终识别文字运用的是tesseract。
以上就算安装完成了。

测试一下

这是用例图片
在这里插入图片描述

python代码:

#! -*- coding:utf-8 -*-

from PIL import Image
import pytesseract
image = Image.open(r'C:\Users\Administrator\Pictures\Saved Pictures\ceshi.png')
# image.show(); 显示图片 路径无问题
text = pytesseract.image_to_string(image)
print(text);

测试结果:
在这里插入图片描述但中文没法识别识别出来
查找方法:
查了网上说是人家是被的库中没有中文识别库,我们需要下载一个中文库,名字是chi_sim.traineddata 将此文件放到tessdata中,名称换成eng.traineddata,覆盖掉原来那个同名的文件,这里放上下载链接。
下载中文字库
改进后的:
在这里插入图片描述
测试成功!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值