反爬虫问题
反爬虫:就是用任何技术手段阻止批量获取网站信息的一种方式
1.为什么会被反爬虫?
- 网站爬虫浪费网站的流量
- 数据是每家公司的宝贵资源
2.反爬虫的方式有哪些?
- 不返回网页,如不返回内容和延迟网页返回时间
- 返回数据非目标网页,如返回错误页、空白页和爬取多页时均返回同一页
- 增加获取数据的难度,如登录才能查看和登录时设置验证码
2.1不返回网页
首先,网站会通过IP访问量反爬虫,其次,网站会通过session访问量反爬虫。此外,网站也会通过User-Agent反爬虫。User-Agent表示浏览器在发送请求时,附带当前浏览器和当前系统环境的参数给服务器。
当使用requests库进行爬虫的时候,默认的User-Agent为python/requests/version。
2.2返回非目标网页
返回非目标网页,也就是网站会返回假数据
2.3获取数据变难
一般登录才可以查看数据,而且会设置验证码。
3.如何“反反爬虫”?
中心思想就是让爬虫程序看起来更像正常用户的浏览行为。
3.1修改请求头
最简单的方法需要把请求头改成真正浏览器的格式。
也可以做一个User-Agen