爬虫
文章平均质量分 81
utopianist
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
经典爬虫:爬取百度股票
关键字: 百度股票 爬虫 文件保存课程 URL:http://www.icourse163.org/course/BIT-1001870001GitHub: https://github.com/utopianist/CrawBaiduStock前言百度股票 URL :https://gupiao.baidu.com/stock/ + sz300059 +.html,其中以 sh 开...原创 2018-11-04 18:10:28 · 3205 阅读 · 3 评论 -
爬虫进阶:Redis+Flask构建代理池
关键字: 代理池 Redis FlaskGitHub:https://github.com/utopianist/ProxyPool前言我们今天跟着 《Python3网络爬虫开发实战》这本书来搭建自己的代理池。代理池工作后,我拥有了接近八百个代理,评分一百的代理也有上百个。代理池结构功能代理池中的 py 文件功能:基本框架:为什么是 Redis?Redis 是一个开源的...原创 2018-11-18 01:09:12 · 774 阅读 · 4 评论 -
PyQuery用法详解
本文转自:https://blog.youkuaiyun.com/jeremyjone/article/details/80450236前言PyQuery 是灵活而又强大的网页解析库,而在爬虫框架 PySpider 和 Scrapy 中又随处可以 PyQuery 的身影。本节,我们通过一连串的极其简易的实例,来深入学习 PyQuery。那我们开始吧!一、初始化方式有三种,可以传入字符串,传...转载 2018-11-29 18:02:42 · 1550 阅读 · 1 评论 -
搜狗微信文章爬取(上)
前言weixin.sogou.com 是一个反爬极其严厉的站点。想要通过搜狗提供的 API 爬取微信公众号,你必须对以下几点印象深刻:weixin.sogou.com 的 URL 构造,这是爬虫工程师的基本功。在不登录的情况下只能浏览前十页。在登录的情况下只能爬取前一百页。搜狗微信 的反爬措施是封 IP 和封 Cookie。如果每五秒翻一页,大概翻二十页你会触发反爬:我们今天...原创 2018-11-27 03:25:27 · 11042 阅读 · 3 评论 -
搜狗微信文章爬取(中)
前言上节,我们已经成功构造了包含参数 SNUID 的 Cookie 池,这节我们将正式爬取 sogou.weixin.com。Redis数据库我们同样编写一个 db.py 文件,里面包含 Redis 数据的各种接口。我们要对接 Redis ,并且满足一下几个功能:能够提取 SNUID 参数拼凑出请求头。能够提取出代理,并且对不满足需求的代理扣分。构造一个新的 Redis 队列 re...原创 2018-11-27 04:46:40 · 4152 阅读 · 3 评论 -
搜狗微信文章爬取(下)
GitHub:https://github.com/utopianist/SougouWeixin前言上节我们爬完了所有索引页,这节我们开始爬取公众号文章。要知道,我们之前爬的是 weixin.sogou.com ,而现在爬取的是 mp.weixin.qq.com ,这是两个完全不同的网站。关于 mp.weixin.qq.com 的反爬,并不是很严厉,我们只需需要构造新的请求头。...原创 2018-11-27 16:31:08 · 4603 阅读 · 0 评论
分享