pycharm安装pytesseract，进行图片文字识别

最新推荐文章于 2024-10-23 23:21:47 发布

原创最新推荐文章于 2024-10-23 23:21:47 发布 · 2.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#python

自然语言处理专栏收录该内容

10 篇文章

订阅专栏

在尝试使用pytesseract进行图片文字识别时遇到了安装和配置问题。首先通过pip安装pytesseract，然后安装Pillow和Tesseract-OCR并配置环境变量。在遇到tesseract未找到的问题后，修改pytesseract.py文件中的tesseract_cmd路径。尽管成功运行，但识别准确率不高，后续需要研究提高识别精度的方法。

部署运行你感兴趣的模型镜像

今天使用pytesseract包进行自动化验证登录时，对pytesseract进行下载，其中出现了很多的问题，我直接先使用命令：pip install pytesseract进行下载，下载成功
在这里插入图片描述
然后测试看看能不能识别出图片中的文字，然后报错

查阅了资料发现还要安装pillow和Tesseract-OCR
下载Tesseract-OCR链接：https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
然后一路默认安装就行
配置环境变量：在你环境变量里添加你安装Tesseract-OCR的路径，然后再运行代码，
在这里插入图片描述
我这里运行代码后，还是报错说tesseract没有安装或者不在PATH中，再继续百度，pytesseract安装后，在python的Lib目录下site-packges下会生成一个pytesseract文件夹，文件夹中找到pytesseract.py，路径为：D:\Python36\Lib\site-packages\pytesseract，使用记事本打开pytesseract.py，找到如下两行：

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

将tesseract_cmd = 'tesseract’修改为：tesseract_cmd = ‘你安装tesseract的路径’，我的就是tesseract_cmd = ‘D:\tesseract-ocr\tesseract.exe’
表示tesseract_cmd配置的是你安装tesseract的绝对路径，这样就能找到tesseract了。修改后保存，再去运行python代码，就可以成功了。
不过最终这准确度不是很高呀，后面需要再多学习一下

您可能感兴趣的与本文相关的镜像