使用tesseract来识别图片中的文字
windows安装
地址:https://digi.bib.uni-mannheim.de/tesseract/
下载exe文件后,点击运行。
如果是64位系统。安装目录最好如下所示:
安装好后,使用管理员权限打开cmd,执行
SET TESSDATA_PREFIX=C:\Program Files\Tesseract-OCR
并把 C:\Program Files\Tesseract-OCR
加入PATH环境变量。
安装以下第三方库:
pip install pytesseract
pip install pillow
如果想提取中文字符,需要下载中文包,地址:
https://github.com/tesseract-ocr/tessdata
下载chi_sim.traineddata就可以了,然后把下载的文件放到
目录