1.图形验证码识别技术
登陆或者请求一些数据时需要图形验证码。将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition),简称OCR。实现OCR的库不是很多,特别是开源的。因为这一块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值。因此开源的比较少。这里介绍一个比较优秀的图像识别开源库:Tesseract。由Google公司赞助,可以通过训练识别任何字体。
2.Windows操作系统下Tesseract的安装
Tesseract的下载地址有:
(2)德国曼海姆大学发行的3.05版本下载地址,http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00