
爬虫
文章平均质量分 58
Jesszen
这个作者很懒,什么都没留下…
展开
-
【学习笔记】python爬虫---代理池
背景:崔庆才的爬虫学习笔记整体架构: 获取模块【各大网址爬取代理】----->存储模块【redis有序集合存储】<==========>检测模块 || ...原创 2018-07-19 22:48:04 · 6006 阅读 · 5 评论 -
【爬虫】python爬取微信公众号文章
背景:利用代理池爬取微信公众号文章并保存架构:巨坑:实例的名不可于类的名重复。第一:请求及请求队列1、为什么要创建weixinrequest()? 因为Sogou微信搜索反爬虫能力强,response.status_code容易出现302,也就是需要输入验证码。当然解决这个问题有两个途径,一个是调用验证码自动识别,另一个是将该302连接重新放回请求队列,更好代...原创 2018-07-21 15:27:07 · 5306 阅读 · 1 评论 -
【爬虫】利用selenium爬取淘宝并保存到mongodb数据库
背景:淘宝的Ajax加密处理,不方便直接解析Ajax请求数据,所以利用selenium库实现模拟爬取架构:第一:主要的思路第二:定义mongodb是类,实现数据存储主要注意的是,mongodb用户名和密码的问题。第三:爬取产品搜索结果页面第四:解析具体的product第五:源码import pymongofrom selenium.webdr...原创 2018-07-31 15:48:21 · 1735 阅读 · 0 评论 -
【模拟登陆】github模拟登陆,打印信息流
目的:动态获取cookie第一:分析登陆过程1、打开开发者工具,查看各自请求2、可以看到name为session的请求【方式post,传入的data】3、查看name为login的请求,源码中获得token,作为上一个请求中的data的一部分 第二:登陆以后,解析页面信息流数据 查看信息流请求的url,自行构建对应的url,解析 1、这里有个技巧 /d...原创 2018-07-31 17:43:31 · 529 阅读 · 0 评论