CNN识别学库bao的验证码

最新推荐文章于 2024-04-08 12:11:48 发布

原创最新推荐文章于 2024-04-08 12:11:48 发布 · 6.7k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #验证码 #CNN #识别

python 同时被 3 个专栏收录

34 篇文章

订阅专栏

算法

25 篇文章

订阅专栏

小算法大本营

23 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

前言

背景
最近在看深度学习相关知识，正好手上一个爬虫外包有个需求：爬取学库bao的全站数据。官方传言题目有一千多万道，其中每道题要查看答案和解析，都需要识别验证码（数字+字母，四个字符）。一般的，打码平台一块钱可以识别200张，算下来得要5万的打码费用，还没算失败率。
图片示例
参考
本文参考了《CNN破解简单验证码(Tensorflow实现)》。网上一搜”验证码 CNN”，大部分都是类似的文章，用captcha模块生成验证码进行训练、识别，甚至代码都是一样的，真没意思。后来发现51CTO视频课程里也有讲这个案例，我把它上传到云盘了（链接: https://pan.baidu.com/s/1iuMfSlWyTm8SbxHYeDoBSQ 密码: shjm），感觉视频里的讲解比其他博客详细多了。
代码
GitHub地址：cnn_on_captcha、captcha_identify。
正确率
训练样本6500，测试样本500，识别率达92.4%。

以往的，识别验证码的流程一般是先去噪，再切割，然后用最近邻去分类识别。但是去噪和切割这两个步骤，经常都不那么好做。而CNN不需要去噪和切割，直接整张验证码拿去训练和识别。不用做针对性的去噪和切割，可以省去很大工作量。

正文

采集样本

CNN识别验证码有优点也有不足，它其中的一个缺陷就是需要更多的样本做训练。文章《识别扭曲干扰性验证码》中提到94%的识别率需要400W张图片，不知真假，但确实吓人。
验证码识别率
难怪网上一搜”CNN 验证码识别”，出来的全都是用captcha模块生成的验证码做训练，敢情他们是找不到训练样本呀。

然而我的任务是识别学库bao的验证码，就算不能收集这么多的验证码，也要试一试。采集验证码的流程是下载验证码 —> 打码平台打码 —> 返回给学库bao判别正误。有些博客说人工识别并标注验证码，有些原始，我用的是云打码，采集了7000张验证码，费用还不到40元，何苦为难自己。另外，打码平台识别的结果并不一定百分百正确，必须返回给原网站，根据反馈判断识别正误。

采集验证码图片的代码：crawl_captcha.py，如果要采集其他网站的验证码，稍加修改即可。
（图片可以自行跑上面的代码采集，我将我采集到的放在云盘了，可以拿来直接用，链接: https://pan.baidu.com/s/18i2xoGth8INChhCWfROZpw 密码: vrew 。如果百度网盘失效就用新浪微盘：http://vdisk.weibo.com/lc/3AO6EQDinZjxwfeVbuZ 密码：L70M）

训练和测试

模型的训练和测试，这个没什么好说的，优快云上一搜，千篇一律。我这里只是将图片源换成了本地采集好的验证码，代码中调一下图片大小。

尝试和改进

嗯，好玩的在这里。无知的初学者，瞎捣鼓系列。
（注意，要先把训练样本和测试样本（captchas文件夹和test文件夹）放到项目目录。除了captcha01，其他都要先运行crop_captcha.py将图片切割成单字符，再进行训练。）

初版本
代码：captcha01 。
最初，6500张图片，不做任何处理，每次随机抽取64张，训练2W批次。耗时80分钟，准确率3.4%，低的可怜，不忍直视。
切割
代码：captcha02 。
看来这点数据量，基本上是没法直接训练了。网络模型还没能学习到验证码的特征，那我们就清除一些无用的杂质和边缘，将更清楚、更精准的样本喂给它。去噪我是不想做的，但切割还是比较容易的，把四个字符单独切割出来，把不必要的图片边缘清除掉。这样可以很大程度地降低模型学习的压力，而且样本量也变成原来的四倍了。

切割以后总共2.6万张图，训练2W批次，耗时23分钟，准确率82.2%（四个字符同时正确）。这准确率立马上来了，基本上可以拿来用了。
（注：因打码平台经常将大小写忽略，故训练的时候将全部大写字母作小写看待。）
除去pooling层
代码：captcha03 。
切割后的图片大小为6*18，字符已经精细到1个像素上去了，已经不能再缩减了。而pooling层很重要的一个作用就是在保留主要特征的同时降低参数（纬度）和计算量，此时这个作用并不大，所以可以考虑把pooling层去掉。

训练2W批次，耗时37分钟，准确率89.2%。
新增一层网络
代码：captcha04 。
验证码的识别，一般的选择三层卷积就已经有比较好的效果，但我还是好奇四层卷积，识别率将会升降多少。
训练2W批次，耗时44分钟，准确率91.2%。
训练6W批次，耗时135分钟，准确率91.6%。
将第三层的厚度64变成128
代码：captcha05 。
训练2W批次，耗时53分钟，准确率88.8%。
训练6W批次，耗时207分钟，准确率92.4%。

开启验证码识别服务

好了，模型已经训练好了。接下来就是使用了。我使用了Django开了一个服务，需要识别验证码的时候只需将验证码post过去就能返回识别结果了。代码：captcha_identify 。
启动命令：python manage.py runserver 127.0.0.1:8000

在爬虫中，只需要调用下面的方法即可。

def identify(filename):
    try:
        r = requests.post('http://127.0.0.1:8000/captcha_identify/', files={'image': (filename, open(filename, 'rb'), 'image/png')})
        return r.content
    except Exception as e:
        return ''