window10安装
安装环境:
python-3.7.4
pip 21.2.4
1.下载安装tesseract
tesserocr是依赖tesseract进行工作的,所以要先下载tesseract。
1、下载
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
该地址提供了多个版本的下载文件,这里我们选择的是tesseract-ocr-setup-3.05.01.exe这个版本
2、安装
下载好以后双击进行安装即可,安装过程中会出现一个有多选框要选择的界面,这个界面有一项内容是:Additional language data(download),这个选项的意思是是否安装多国语言包,默认只安装了英文。所以看自己需求是否进行安装,我这里的建议是不安装,如果我们后期需要可以通过别的方式进行安装。
等待安装完成。
3、添加环境变量
为了方便使用,我们添加一下环境变量。
打开环境变量设置,在path中增加tesseract所在的文件夹即可
补充说明:
字体库下载地址https://github.com/tesseract-ocr/tessdata
中文字体库名称:chi_sim.traineddata
把下载好的文件放到tesseract下的tessdata目录下即可
2.下载安装tesserocr
1、下载tesserocr
tesserocr通过pip安装会报错,无法正确安装。所以我们通过下载whl的方式进行安装
下载地址:<