目录
1. 代理的使用
服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这种情况可以称为封IP,于是网站就成功把爬虫禁掉了。
绕过IP限制 反爬虫:借助代理方式来伪装IP,让服务器无法识别由我们本机发起的请求,这样就可以成功防止封IP。
- 常用免费代理网址
https://www.kuaidaili.com/free/
上述网站由很多免费的IP,可以供使用,不过效果可能不太好,有的IP可以,有的则不行;也可以尝试购买一些高校代理。
- 代理的使用 --- requests
import requests
proxy = '122.193.244.22:9999'
proxies = {
'http':'http://'+proxy,
'https':'https://'+proxy
}
response = requests.get('http://httpbin.org/get',proxies=proxies)
print(response.text)
1) 不使用IP代理
import requests
response = requests.get('http://httpbin.org/get')
print(response.text)
当前的origin就是本机的IP,如果频繁用本机的IP来爬取数据,就会被服务器封掉。
2) 使用IP代理