
爬虫
大佬请带带我
这个作者很懒,什么都没留下…
展开
-
阿里系纯滑块验证码破解思路
本文旨在经验交流,如若侵犯利益,请联系删除。组团购买阿里云2019.09.10下面的例子已经改为阿里的人机认证了,但是其实用selenium启动浏览器后,依旧可以用pynput来操控键鼠来完成模拟操作,单纯调用send_keys()和click()都会被识别出来了。webdriver参数太多了,有兴趣的可以考虑puppeteer来实现。阿里系滑块验证码以nc_1开头,通过调用XXX...原创 2019-06-21 09:36:30 · 41431 阅读 · 23 评论 -
python代理池搭建
熟悉爬虫的,必定会熟悉各种反爬机制。今天就讲一下自己如何建立ip代理池的。一个合格的代理池必须拥有一个爬取代理IP的爬取器、一个验证IP可否使用的校验器、一个存储IP的数据库、调用这些的调度器以及可以供获取IP的接口(这里推荐flask,比较简单)。先来说说爬取器,首先要爬取的代理IP网站尽量是无需登录的,其次是对代理IP更新较快的,前者加快代理池的效率,后者增加代理池的质量。这里我对市面...原创 2019-05-06 14:34:20 · 6981 阅读 · 4 评论 -
关于scrapy的验证码处理
之前用scrapy爬取网页时经常出现需要验证码,但是返回的是个response对象,不知道要如何进行破解。以往都是selenium进行截图验证码,模拟拖动,但是scrapy在yield请求后就直接走了,不知道如何下手。百度了一圈,后面发现原来大家都是靠中间件来完成突破验证码的首先经过爬虫的话,要处理请求的话应该调用DownloaderMiddleware里的process_req...原创 2019-04-23 21:44:20 · 3152 阅读 · 0 评论 -
scrapy+selenium爬取淘宝商品信息
本文仅作经验分享,不做商业用途,如涉及权利问题,请通知删除。scrapy+selenium爬取淘宝商品信息建立scrapy项目对目标网站进行分析selenium模拟登录合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTe...原创 2019-04-11 19:11:46 · 4169 阅读 · 12 评论 -
Selenium EC 与 Wait
爬虫经常出现错误,多半是没等待控件加载出来。利用selenium虽然方便,但是还是需要控制一下等待时间。Selenium有两个常见的模块来控制等待。EC(expected_conditions)EC作为预期条件,经常与util()和util_not()连用。这是EC的16个方法#这两个条件类验证title,验证传入的参数title是否等于或在driver.title中EC....原创 2019-04-05 09:46:55 · 4614 阅读 · 1 评论 -
爬取Django 绕过csrf实现批量注册
本文只是提供一些经验,实际情况下因地制宜。自己做了个Django项目,缓存用的是redis,部署到云服务器上,想要通过爬虫自动化注册账号。话不多说,一步步做。首先要准备账号数据,chorme利用ctrl+shift+i看一下注册提交的是什么数据。因为post提交有个csrf验证的东西,还有个验证码,这个我们先不管,先把其余数据处理好。当然也可以做成json格式,这里用的是...原创 2019-03-25 13:09:19 · 764 阅读 · 0 评论 -
python3 爬取搜狗微信的文章
目标地址:http://weixin.sogou.com/weixin?这个地址是搜狗微信的文章搜索,可以搜索到微信的文章,而我们目标就是这些文章内容这个url经过测试,当我们没登陆微信只能看到10页的内容,我们登陆后才可以查看100页的内容,而且翻页多次会出现ip检测的反爬机制,出现302重新跳转到验证码输入页面,输入验证码后才可以继续浏览网页于是我们就利用代理池来解决这个反爬。...原创 2019-03-10 21:25:05 · 4289 阅读 · 4 评论 -
requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活。import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonfrom multiprocessing import Pool#requests.get()调用完记得抓异常def get_one_page(url): try: ...原创 2019-03-01 22:14:43 · 267 阅读 · 0 评论