Python爬虫理论 | (7) 进阶反反爬虫技术 --- 搭建IP代理池、Cookies池

目录

 

1. 代理的使用

2. 搭建IP代理池

3. 模拟登陆

4. 搭建cookies池


1. 代理的使用

服务器会检测某个IP在单位时间内的请求次数,如果超过了某个阈值,那么服务器会直接拒绝服务,返回一些错误信息。这种情况可以称为封IP,于是网站就成功把爬虫禁掉了。

绕过IP限制 反爬虫:借助代理方式来伪装IP,让服务器无法识别由我们本机发起的请求,这样就可以成功防止封IP。

  • 常用免费代理网址

http://www.ip3366.net/free/

https://www.kuaidaili.com/free/

https://www.xicidaili.com/nn/

上述网站由很多免费的IP,可以供使用,不过效果可能不太好,有的IP可以,有的则不行;也可以尝试购买一些高校代理。

  • 代理的使用 --- requests
import requests

proxy = '122.193.244.22:9999'
proxies = {
    'http':'http://'+proxy,
    'https':'https://'+proxy
}
response = requests.get('http://httpbin.org/get',proxies=proxies)
print(response.text)

 1) 不使用IP代理

import requests

response = requests.get('http://httpbin.org/get')
print(response.text)

当前的origin就是本机的IP,如果频繁用本机的IP来爬取数据,就会被服务器封掉。

2) 使用IP代理 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值