原文链接:https://my.oschina.net/u/3273360/blog/1845039
windows下tesserocr的安装
首先说明下我的开发环境是win10+Anconda,python环境是使用的Anconda自带的python3.6版本
安装tesseract
-
在Windows下,首先需要下载tesseract,它为tesserocr提供了支持。
- 进入下载页面,可以看到有各种.exe文件的下载列表,其中文件名中带有dev的为开发版本,不带dev的为稳定版本,我自己选择下载的是tesseract-ocr-setup-3.05.01.exe
- 下载完成后双击,此时会出现以下界面,此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言,语言较多,下载时间会比较长,请耐心等待,然后一路点击Next按钮即可。
-
配置相应的环境变量
我们需要配置两个环境变量一个是path环境变量,一个新建环境变量 TESSDATA_PREFIX
如下图所示:
加入的值就是上面tesseract安装后所在的目录
-
设置完环境变量后,打开cmd窗口看能否识别tesseract,输入命令tesseract -v
安装tesserocr
-
使用pip命令安装
pip install tesserocr pillow
安装过程中出现如下错误:
解决办法是:
- 打开链接https://github.com/simonflueckiger/tesserocr-windows_build/releases
- 下载tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件,并将该文件放至 pip命令所在目录,我是使用的anconda环境我的目录路径
C:\ProgramData\Anaconda3\Scripts
- 然后在cmd命令行中 切换到该目录执行
pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl
,为防止其他问题产生,最好用管理员身份打开cmd窗口,如下图所示即为安装成功
测试
-
在cmd里面执行python命令,然后看能否正常导入tesserocr
-
下载需要识别的图片,https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
import tesserocr from PIL import Image image = Image.open('image.png') print(tesserocr.image_to_text(image))
- 要把image.png 和代码放在同一个目录下,如果不是在同一个目录下需要修改open中的路径,需要注意的是如果是在pycharm中的话,要配置正确的python解析器,如果配置正确而且命令行中能正常导入的话,请重启pycharm,待包全部加载完毕之后,再次进行测试
- 或者直接通过cmd命令行方式进行识别操作,需要注意的是img要在执行命令行时,所在的目录,比如下图所示我的图片是放在c盘的,所有我要先切换到c盘然后执行以下命令
tesseract image.png result -l eng
感谢北京图灵学院老师的支持与帮助,感谢!!!! 官网 http://www.tulingxueyuan.com/ 交流QQ群 246519056
参考1 https://cuiqingcai.com/5189.html
参考2 https://blog.youkuaiyun.com/coolcooljob/article/details/80385711