一、 tesseract-ocr
- C++编写,最开始由hp编写,后来束之高阁,最后决定贡献给google开源。
源码:https://github.com/tesseract-ocr/tesseract
2. 没找到官方exe下载,非官方下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
3. 安装&配置
win10安装,64位系统安装:没装在默认路径,安装在D:\Tesseract-ocr\
- 注意64位系统安装要修改默认地址,C:\Program Files 32位系统默认:C:\Program Files (x86)
- 配置环境变量:编辑path,添加D:\Tesseract-ocr\,新建系统变量:TESSDATA_PREFIX,值:D:\Tesseract-ocr\
- 查看tesseract-ocr 是否安装成功:tesseract -v ,失败的原因多数是因为环境变量配置的问题
4. 安装pytesseract:pip install pytesteract,很多参考资料都需要安装pillow,安装pytesseract后发现pillow已安装。无需再装
另外,有篇文章把不同os下的安装总结了,资料:https://blog.youkuaiyun.com/blogliang/article/details/78185011?utm_source=blogxgwz0
注意 windows 64位OS引用image等库时 需要写成 from PIL import image,32位os直接写import image
5. 图片识别时还用到pylab: pylab 模块是一款由python提供的可以绘制二维,三维数据的工具模块,其中包括了绘图软件包 matplotlib,其可以生成 matab绘图库的图像。但是在我们安装了python后,缺省状态下并不包含pylab模块,所以我们要先安装pylab模块。
安装命令:pip install matplotlib