无账号体系下爬虫和发爬虫的策略问题

先借用一张图

下面是不设定账号体系下可用策略

策略1:ip限制:

    原理:如果编写的爬虫的ip是固定的,那么对于某个请求过于频繁并短时间访问大量网页,有爬虫的嫌疑,应该封禁。

    弊端:但会造成误伤,所以封ip策略是最low的策略之一。

    爬虫端:爬虫可以直接利用网络免费ip来调用爬虫来抓取

策略2:useragent:

    原理:User-Agent是用户访问网站时候的浏览器的标识,如果某个请求没有相应的正确并合法的请求头的话,给此请求返回502

    弊端:破解容易

    爬虫端:python可以直接调用fake-useragent来直接生成随机并合法的useragent,也可以百度查找一堆合法useragent来用。

 

策略3:验证码

    原理:设置请求频率阈值,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值