反爬虫策略

目录

 

一 通过请求头来控制访问

二 通过IP限制来反爬虫

三 通过JS脚本来防止爬虫

四 配置ssl,采用绕过证书验证实现https


 

一 通过请求头来控制访问

无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers.  请求头报文如下图所示

这里面大部分的字段都是浏览器向服务器表面身份用的,对于爬虫来说,最需注意的字段就是User-Agent、Referer、Cookie

User-Agent

User-Agent是Http协议中的一个字段,其作用是描述发出Http请求的终端的一些信息。服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器,每个正规的爬虫都有其固定的user-agent,因此要将这个字段改为这些知名的user-agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度爬虫。以此相对的,伪装浏览器的user-agent是一个不错的主意,因为浏览器是任何人都可以用的,换句话说,就是没有固定IP。推荐准备若干个浏览器的user-agent,然后每次发送请求的时候就从这几个user-agent中随机选一个填上去。本爬虫项目使用 UserAgentUtil工具类随机产生 user-agent

Refer

Refer是Http请求header的一部分,当浏览器(或者模拟浏览器行为)向web服务器发送请求的时候,头信息里有包含Referer。比如我在www.google.com里有一个www.baidu.com链接,那么点击这个www.baidu.com,它的header信息就有

Referer=http://www.google.com,由此可以看出,它表示的就是一个源,即请求源。

Refer的作用有如下

1 防盗链。

可以利用refer防止盗链,比如我只允许我自己的网站访问我自己的图片服务器,那我的域名是www.dog123.com,那么图片服务器每次取到referer来判断一下是不是我自己的域名www.dog123.com,如果是就可以继续访问,不是拦截。

2 防止恶意请求。

比如静态请求是*.html结尾的,动态请求是*.shtml,那么由此可以这么用,所有的*.shtml请求,必须Refer为我自己的网站。

对于空的referer,是因为该请求并不是通过一个链接触发产生的,是由用户直接通过浏览器的地址栏中输入一个资源的URL地址,那么这种请求是不会包含referer字段的。

 

Cookie

有些页面需要通过后台登录后才能访问。后台登录,通常会返回cookie给客户端,客户端每次请求服务器时,会自动携带cookie发送给服务器,服务器拿取到cookie将验证该请求是否已登录,有没权限访问等。cookie技术是客户端的解决方案,cookie就是由服务器发给客户端的特殊信息,而这些具体信息保持在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。

二 通过IP限制来反爬虫

如果一个固定的IP在短暂的时间内快速访问一个网站,可能会被服务监控平台检测异常,被列入IP黑名单,限制访问。市场上也存在对已知针对性风险的检测,所以使用IP代理需要不断更替变化。开发者也可以通过降低访问频率逃避服务监控平台的检测。

三 通过JS脚本来防止爬虫

有些网站后台为了验证你是不是机器,特别设置了验证码,滑动解锁等。这些网站会随机生成验证码,然后让用户输入正确的验证码,否则无法正常登录。虽然这些举措可以增加爬虫的难度,但还是可以解决的。大部分解决方法都是通过PhantomJS模拟浏览器抓取验证码,模拟滑块拖动。也有一些加密方法在网站的JS文件中,这就要让开发者通过JS找到解密方法,如网易云音乐等。

四 配置ssl,采用绕过证书验证实现https

有些网站需要证书认证,如果没有安装证书,会报:javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: .................... 这是缺少安全证书时的异常,解决方案就是配置ssl绕过证书。

关于如何使用httpClient配置ssl绕过证书的方法,开发者可以查阅相关文档即可。配置证书,要注意线程是否会出现同步问题,否则当使用多线程时,可能会出现互斥导致下载速度异常。

https://blog.youkuaiyun.com/irokay/article/details/78801307

Selenium是一款非常强大的Web自动化测试工具,它可以模拟真实用户对网站的访问行为,因此被广泛应用于爬虫领域。当然,由于爬虫会对网站造成一定程度的压力,许多网站都会采取反爬虫策略,Selenium也不例外。以下是Selenium常见的反爬虫策略: 1. 检测浏类型:许多网站会检测你使用的是哪种浏,如果发现你使用的是Selenium中的webdriver,则会将你识别为爬虫并拒绝访问。 2. 检测浏驱动版本:与浏类型类似,有些网站会检测你使用的浏驱动版本是否符合要求,如果不符合,则会拒绝访问。 3. 检测JavaScript执行:大部分网站都会依赖JavaScript来渲染页面和执行某些操作,因此如果检测到你的Selenium没有启用JavaScript,则会拒绝访问。 4. 检测窗口尺寸:有些网站会检测你的窗口尺寸是否符合要求,如果不符合,则会拒绝访问。 5. 检测访问频率:过于频繁的访问同一个页面会被认为是爬虫行为,因此有些网站会设置访问频率限制。 为了规避这些反爬虫策略,我们可以采取以下方法: 1. 设置随机的User-Agent和代理IP,以避免被检测到Selenium中的webdriver。 2. 定期更新浏驱动版本,并且设置随机的驱动路径。 3. 启用JavaScript执行,并且模拟真实用户的鼠标点击、滚动等操作。 4. 设置随机的窗口尺寸,并且在操作之前先最小化窗口。 5. 控制访问频率,并且设置随机的访问间隔时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月夜归醉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值