Python-爬虫与反爬虫-身份识别

首先要了解服务器反爬的原因,其次要知道服务器反什么样的爬虫,最后要了解、明确反爬的方向;

这里将为大家介绍反爬三个方向:

一、基于身份识别进行反爬

二、基于爬虫行为进行反爬

三、基于数据加密进行反爬

接下来是一些常见的手段和方法:

(1)常见基于身份识别进行反爬:

        1、通过Headers字段来进行反爬

        通过Headers里面的User-Agent字段进行反爬

        原理:爬虫默认情况下没有User-Agent;而是使用默认设置

        解决:请求前添加User-Agent字段即可;更好是使用User-Agent池来解决

        2、通过referer字段来进行反爬

        原理:爬虫默认情况下不会带上referer字段,服务器端通过判断请求发起的源头以此来判断请求是否合法。

        解决:添加referer字段

        3、通过cookie来进行反爬

        原理:通过检查来查看发起请求的用户是否具备相应权限,以此来进行反爬。

        解决:进行模拟登录,成功获取cookie之后进行数据爬取。

后期会补充相应代码,进行解释说明。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值