Python-爬虫与反爬虫-身份识别

努力——岱

于 2025-01-25 10:51:35 发布

阅读量1.1k

点赞数 2

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_83940666/article/details/145353019

版权

首先要了解服务器反爬的原因，其次要知道服务器反什么样的爬虫，最后要了解、明确反爬的方向；

这里将为大家介绍反爬三个方向：

一、基于身份识别进行反爬

二、基于爬虫行为进行反爬

三、基于数据加密进行反爬

接下来是一些常见的手段和方法：

（1）常见基于身份识别进行反爬：

1、通过Headers字段来进行反爬

通过Headers里面的User-Agent字段进行反爬

原理：爬虫默认情况下没有User-Agent；而是使用默认设置

解决：请求前添加User-Agent字段即可；更好是使用User-Agent池来解决

2、通过referer字段来进行反爬

原理：爬虫默认情况下不会带上referer字段，服务器端通过判断请求发起的源头以此来判断请求是否合法。

解决：添加referer字段

3、通过cookie来进行反爬

原理：通过检查来查看发起请求的用户是否具备相应权限，以此来进行反爬。

解决：进行模拟登录，成功获取cookie之后进行数据爬取。

后期会补充相应代码，进行解释说明。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。