前言
这两个库的安装与使用折磨了小白博主几个小时,也是综合了各方资料肝出了这篇较为详细的几乎零基础的tesserocr和pytesseract库的安装与使用教程(主要介绍安装部分),可以帮大家少走一些弯路,利用tesserocr或者pytesseract库,前提是已经安装好Tesseract-OCR软件(文后有安装链接),tesserocr库的安装,问题不大,但要配合tesseract-OCR使用,麻烦死了,反正我搞了好久,还是有一些莫名的错误,听我一句劝就用pytesseract吧!
Tesseract-OCR安装
安装过程如下:
1.下载安装包(直接点开文末链接,下载最新版本就行了)
我安装的是这个:
带dev的为开发版本,不带dev的为稳定版本
2.打开下载的.exe文件,进行安装,建议按默认选项一路同意下去,然后就安装成功,
安装过程中,红色框框部分,可以设置下载各个语言的语言包,也可以点‘+’进行选择性下载,默认语言包为英语的语言包,个人感觉这样下载过慢,可以之后进入官网直接下载对应语言包,下载完成后放到Tesseract-OCR\tessdata\目录下
注:chi_sim.traineddata为简体中文语言包,可在cmd中运行tesseract --list-langs命令,查看已安装的语言包
3、设置环境变量