一 点睛
1 举例
中国知网:http://my.cnki.net/elibregister/commonRegister.aspx 的注册页面使用的是这种验证码,页面如下:
二 准备工作
1 目标
以知网的验证码为例,利用OCR(Optical Character Recognition 光学字符识别)技术识别图形验证码。
2 安装tesseract
2.1 Windows下下载地址
https://digi.bib.uni-mannheim.de/tesseract/
2.2 下载tesseract-ocr-setup-3.05.01.exe
2.3 安装注意事项
勾选Additional language data(download)选项,这样可以识别多国语言。
3 安装tesserocr
pip install tesserocr pillow
参考下面两篇文章。