目录
常用第三方库
爬虫框架
动态页面渲染
1. url请求分析
2. selenium
3. phantomjs
4. splash
5. spynner
爬虫防屏蔽策略
1. 修改User-Agent
2. 禁止cookies
3. 设置请求时间间隔
4. 代理IP池
5. 使用Selenium
6. 破解验证码

常用第三方库
对于爬虫初学者,建议在了解爬虫原理以后,在不使用任何爬虫框架的情况下,使用这些常用的第三方库自己实现一个简单的爬虫,这样会加深对爬虫的理解。
urllib和requests都是python的HTTP库,包括urllib2模块以巨大的复杂性代价获取综合性的功能。相比于urllib2,Requests模块更能简约的支持完整的简单用例。关于urllib和requests的优缺点和区别,大家可以去网上查一下。
BeautifulSoup和lxml都是python页面解析的库。BeautifulSoup 是基于 DOM 的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多。而lxml只会进行局部遍历,使用xpath能够很快定位标签。bs4 是用 python 写的,lxml 是 c 语言实现的,也决定了lxml比bs4要快。
该博客有比较全面的关于python爬虫常用第三方库的汇总,可做参考。
https://blog.youkuaiyun.com/woshisunchi/article/details/60877817
爬虫框架
python常用的爬虫框架就是scrapy和pyspider两个。
关于框架的使用方法及详细介绍,可参考官方文档。
动态页面渲染

最低0.47元/天 解锁文章
1398

被折叠的 条评论
为什么被折叠?



