好久没有更新博客了,心里空落落的,这次分享我的Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了,哈哈哈~~~~~~
- 浏览器伪装
- IP代理池和用户代理池构建
- 动态页面加载解决方法
网站反爬机制常用的方法:
1、通过识别访问的headers来判断是爬虫还是浏览器访问,其中最常用和最重要的就是User-Agent用户代理,服务器可以从这个字段识别出客户端浏览器类型和版本号、客户端的操作系统,页面排版等信息,正是因为这个原因手机和电脑打开的同个网站的页面的排版是不同的,常用的还有Referer等字段;
2、通过用户行为,要是通过一个IP短时间内大量访问数据,该网站可能对这个IP进行短时间的禁止访问,这个可以增加访问延时时间,比如每访问一次延时time.sleep(5),延时5秒,要是爬取的数据量大的话这个爬取时间是挺蛋疼的,最好的方法就是同时构建用户代理池和IP代理池,每访问几次就换一个用户代理和IP代理就完美解决了;
3、动态页面加载,可以通过抓包分析出页面加载的规律然后构造批量请求,如果文件是加密的,可以使用selenium+phantomJS浏览器内核来访问,这个是真实的用户行为,速度比较慢,可以浏览器操作的部分交给selenium+phantomJS,爬取的功能交给爬虫实现,虽然比纯爬虫慢,但是也没办法了。
先来第一部曲
浏览器伪装
- 通过Request添加headers
- 通过Opener添加headers
- 批量添加headers
通过Request添加headers