先借用一张图
下面是不设定账号体系下可用策略
策略1:ip限制:
原理:如果编写的爬虫的ip是固定的,那么对于某个请求过于频繁并短时间访问大量网页,有爬虫的嫌疑,应该封禁。
弊端:但会造成误伤,所以封ip策略是最low的策略之一。
爬虫端:爬虫可以直接利用网络免费ip来调用爬虫来抓取
策略2:useragent:
原理:User-Agent是用户访问网站时候的浏览器的标识,如果某个请求没有相应的正确并合法的请求头的话,给此请求返回502
弊端:破解容易
爬虫端:python可以直接调用fake-useragent来直接生成随机并合法的useragent,也可以百度查找一堆合法useragent来用。
策略3:验证码
原理:设置请求频率阈值,