自动识别验证码与初识Scrapy框架
1、多线程优化
2、登录古诗文
登录:直接发送post,然后发送get
登录:先发送get,获取一下信息,然后再发送post,然后发送get
登录:get、post、get、get。 访问登录后的页面
验证码,下载到本地,手动输入
3、自动识别验证码
(1)光学识别 tesseract
指令识别
识别率不行,但是可以训练它
代码识别
pip install pytesseract
pip install pillow
通过图像处理处理一下图片,然后再去识别,提高识别率
(2)打码平台
(2)打码平台
云打码
4、scrapy
Scrapy是一个非常强大、精悍的Python网络爬虫框架,它的底层使用Python语言实现的, 为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据或者通用的网络爬虫。
Scrapy 使用了 Twisted异