Python3的pytesseract和Tesseract-ocr的使用以及自己训练数据集的方法。
一、安装pytesseract
pip install pytesseract -i https://mirrors.aliyun.com/pypi/simple/
二、安装PIL和pillow库
三、下载Windows tesseract-ocr并配置其环境(网上有很多教程大家可以自行收集),内容和配置python的编译环境差不多。
四、修改pytesseract.py
到你的Python的Lib\site-packages\pytesseract中找到pytesseract.py并修改其中的tesseract_cmd
修改为:(亦可以报错后直接找到该文件后修改)
tesseract_cmd = 'D:/Tesseract-OCR/tesseract.exe'(环境位置)
五、训练数据集
(1)下载jTessBoxEditor(网上搜索,可自行下载)
(2)安装jdk1.8以上的环境
(3)准备训练的标本,比如我的: