反爬虫01

最新推荐文章于 2023-05-29 14:46:45 发布

原创最新推荐文章于 2023-05-29 14:46:45 发布 · 254 阅读

0 ·

CC 4.0 BY-SA版权

@BeanInJ

python系列专栏收录该内容

103 篇文章

订阅专栏

1、python-requests/2.18.4

很多的爬虫请求头就是默认的一些很明显的爬虫头python-requests/2.18.4，诸如此类，当运维人员发现携带有这类headers的数据包，直接拒绝访问，返回403错误
解决方法：
r=requests.get(url,headers={'User-Agent':'Baiduspider'})
把爬虫请求headers伪装成百度爬虫或者其他浏览器头就行了。
案例：雪球网

2、BAN cookies

服务器对每一个访问网页的人都set-cookie，给其一个cookies，当该cookies访问超过某一个阀值时就BAN掉该COOKIE，过一段时间再放出来，当然一般爬虫都是不带COOKIE进行访问的，可是网页上有一部分内容如新浪微博是需要用户登录才能查看更多内容。
解决办法：
控制访问速度，或者某些需要登录的如新浪微博，在某宝上买多个账号，生成多个cookies，在每一次访问时带上cookies
案例：蚂蜂窝

3、验证码验证

当某一用户访问次数过多后，就自动让请求跳转到一个验证码页面，只有在输入正确的验证码之后才能继续访问网站
解决办法：
python可以通过一些 第三方库如(pytesser,PIL) 来对验证码进行处理，识别出正确的验证码，复杂的验证码可以通过机器学习让爬虫自动识别复杂验证码，让程序自动识别验证码并自动输入验证码继续抓取

5. javascript渲染

网页开发者将重要信息放在网页中但不写入html标签中，而浏览器会自动渲染 < script >标签中的js代码将信息展现在浏览器当中，而爬虫是不具备执行js代码的能力，所以无法将js事件产生的信息读取出来
解决办法：
通过分析提取script中的js代码来通过正则匹配提取信息内容或通过webdriver+phantomjs直接进行无头浏览器渲染网页。
案例：
前程无忧网随便打开一个前程无忧工作界面，直接用requests.get对其进行访问，可以得到一页的20个左右数据，显然得到的不全，而用webdriver访问同样的页面可以得到50个完整的工作信息。

6. ajax异步传输

访问网页的时候服务器将网页框架返回给客户端，在与客户端交互的过程中通过异步ajax技术传输数据包到客户端，呈现在网页上，爬虫直接抓取的话信息为空
解决办法：
通过fiddler或是wireshark抓包分析ajax请求的界面，然后自己通过规律仿造服务器构造一个请求访问服务器得到返回的真实数据包。
案例：
拉勾网打开拉勾网的某一个工作招聘页，可以看到许许多多的招聘信息数据，点击下一页后发现页面框架不变化，url地址不变，而其中的每个招聘数据发生了变化，通过chrome开发者工具抓包找到了一个叫请求了一个叫做
https://www.lagou.com/zhaopin/Java/2/?filterOption=3
的网页，打开改网页发现为第二页真正的数据源，通过仿造请求可以抓取每一页的数据。很多网页的运维者通过组合以上几种手段，然后形成一套反爬策略，就像之前碰到过一个复杂网络传输+加速乐+cookies时效的反爬手段。

7、加速乐：

有些网站使用了加速乐的服务，在访问之前先判断客户端的cookie正不正确。如果不正确，返回521状态码，set-cookie并且返回一段js代码通过浏览器执行后又可以生成一个cookie，只有这两个cookie一起发送给服务器，才会返回正确的网页内容。
解决办法：
将浏览器返回的js代码放在一个字符串中，然后利用nodejs对这段代码进行反压缩，然后对局部的信息进行解密，得到关键信息放入下一次访问请求的头部中。
案例：加速乐

解析URL中的参数

在GET请求的时候，经常会有很多查询参数接在URL后面，形如http://xlzd.me/query?name=xlzd&&lang=python，在拼接URL的时候常常容易出现拼接错误的情况，对此你可以使用如下代码让这个过程变得简洁明了：

r = requests.get("http://xlzd.me/query",
	 params={"name":"xlzd", "lang": "python"})

print r.url

输出结果：
http://xlzd.me/query?name=xlzd&&lang=python

获取响应内容

In [7]: r = requests.get('http://xlzd.me')

In [8]: r.encoding
Out[8]: 'UTF-8'

In [9]: r.headers
Out[9]: {'Content-Encoding': 'gzip', 'Transfer-Encoding': 'chunked', 'Vary': 'Accept-Encoding', 'Server': 'nginx', 'Connection': 'keep-alive', 'Date': 'Fri, 11 Dec 2015 06:42:31 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'X-Pingback': 'http://xlzd.me/action/xmlrpc'}

In [10]: r.cookies
Out[10]: <RequestsCookieJar[]>

In [11]: r.text
Out[11]: u'<!DOCTYPE HTML>\n<html lang="zh-CN">\n\t<hea......

最常见的模拟浏览器无非就是伪装headers

In [23]: url = 'http://xlzd.me'

In [24]: headers = {'User-Agent': 'my custom user agent', 'Cookie': 'haha'}

In [25]: requests.get(url, headers=headers)

套代理

import requests

proxies = {
  "http": "http://192.168.31.1:3128",
  "https": "http://10.10.1.10:1080",
}

requests.get("http://xlzd.me", proxies=proxies)