无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块
tesserocr
和pytesseract
。tesserocr
和pytesseract
是Python的一个OCR识别库,但其实是对tesseract
做的一层Python API封装,pytesseract
是Google的Tesseract-OCR
引擎包装器;所以它们的核心是tesseract
,因此在安装tesserocr
之前,我们需要先安装tesseract
。
#下载安装#
下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe
下载完成后,双击安装,可以勾选Additional language data(download)
选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/ 下载zip的语言包压缩文件,解压后将tessdata-master
中的文件复制到Tesseract
的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata
目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR