Python爬虫
关注公众号“轻松学编程”了解更多。
大纲:
1、获取响应
urllib(python3)/urllib2-urllib(python2)
requests(urllib3) --get/post
2、解析响应
HTML、json
re/bs4/xpath(描述性语句)
3、通用动态数据加载 selenium(自动化测试框架) + phantomJS(无界面浏览器)、handles
4、scrapy框架
高性能(多线程-10条、并发-16的框架)、高定制(爬虫)
提供了数据的下载、解析(xpath)、持久化
5、scrapy-redis(分布式策略)
核心–redis-组件(一主多从) —在redis实现任务分配、指纹去重
根本–scrapy
6、解决的问题
反反爬虫(爬虫工程师)
反爬虫(对web后端–Django中间件)
一、urllib2库的基本使用
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib2。
urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)</