9-python 的ProxyHandler处理器（代理设置）

最新推荐文章于 2022-12-03 17:50:20 发布

原创最新推荐文章于 2022-12-03 17:50:20 发布 · 155 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

74 篇文章

订阅专栏

本文介绍了一种常见的爬虫技术——使用代理IP。通过设置代理服务器，可以在爬虫过程中更换IP地址，避免因频繁访问同一网站而被封禁。文章提供了一个简单的Python示例，演示了如何使用urllib库来实现随机代理IP的功能。

ProxyHandler处理器（代理设置）

使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

#_*_ coding: utf-8 _*_

'''
Created on 2018年7月13日
@author: sss
功能：使用代理

'''

import urllib.request
import random

proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]

proxy = random.choice(proxy_list)

#构建两个代理Handler，一个有代理Ip,一个没有代理ip
# httpProxy_handler = urllib.request.ProxyHandler({'http': '124.193.85.88:8080'})
httpProxy_handler = urllib.request.ProxyHandler(proxy)  #每次随机一个代理
httpProxy_handler = urllib.request.ProxyHandler({}) #就算五ip也要放一个空的字典

proxySwitch = True #定义一个代理开关
# proxySwitch = False #定义一个代理开关

#使用代理Handler对象，创建自定义的opener对象
#根据代理开关是否打开，使用不同的代理模式

if proxySwitch:
    opener = urllib.request.build_opener(httpProxy_handler)
else:
    opener = urllib.request.build_opener(httpProxy_handler)

request = urllib.request.Request('http://www.baidu.com/')

# 1.如果这么写，只有使用opener.open()发送请求时，才能使用自定义的代理，而使用urlopen()则不是使用自定义的代理
response = opener.open(request)

# 2.如果这样写，就是将opener应用到全局，之后所有的，不管是opener.open()还是urlopen()发送请求都是使用自定义代理
# urllib.request.install_opener(opener)
# respense = urllib.request.urlopen(request)

print(response.read())

print('finish!')