之前没有想过要通过爬取页面的方式来获取数据,想想毕竟api得到的数据有限,国内使用强智系统的不少,也算是做了点贡献吧。
识别的过程倒是蛮顺利。肉眼验证似乎没有不正确的
话不多说,我们看到的登录界面的验证码是这样的:
如果你的目标和这个一毛一样,那么你便可以拿来用咯
思路很清晰,首先我们知道图像实际上是个二维数组,我们将图片二值化,即处理成只有黑白两色的图像,与训练好的的二维数组逐一相比较,最接近哪个便是哪个字符。
如字母a的二维数组:
//a
{
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,0,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0},
{
0,0,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0},
{
0,0,1,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0},
{
0,0,0,0,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0},
{
0,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0},
{
0,1,1,1,1,0,