一般的验证码都在密码框的下面,根据登陆页面的密码框可以找到验证码图片的位置,利用tesseract-OCR对验证码图片进行识别,再将得到结果放到验证码输入框中。
过程中遇到的主要问题是:
1、content script对跨域请求的限制,所以必须将tesseract的文件放到工程目录下,不能够远程加载。
2、tesseract虽然识别很快,但在识别前要先载入语言文件等,这个过程大概有3-5秒,未自己训练,识别精度很差。
整个扩展程序文件地址:http://download.youkuaiyun.com/download/u014602478/9898409