PythonScript_002_设置代理进行爬取

最新推荐文章于 2025-08-20 22:56:05 发布

原创最新推荐文章于 2025-08-20 22:56:05 发布 · 144 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #代理

Python 专栏收录该内容

9 篇文章

订阅专栏

本文介绍如何使用Python的urllib库构建代理进行网络请求，重点讲解免费代理和收费代理的配置方法，以及如何根据代理开关选择合适的处理器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import os # os是电脑环境、sys是Python环境
'''
构建代理-进行请求
特点：免费的不稳定
Python 3.7.0
'''
# 代理开关，表示是否用代理
proxyswitch = True

# 获取系统环境变量的授权代理的账户和密码，作用：可以防止信息泄露
# proxyuser = os.environ.get("proxyuser") # 这里没有设置
# proxyuser = os.environ.get("proxypasswd") # 这里没有设置

# 构建一个Handler处理器对象，参数是一个字典类型，包括代理类型和代理服务器IP + PROT
httporoxy_handler = urllib.request.ProxyHandler({"http" : "101.251.216.103:80"}) # 免费的
# httporoxy_handler = urllib.request.ProxyHandler({"http": "mr_mao_hacker:sffqry9r@114.215.49:16816"}) # 收费的

# 构建一个没有代理的处理器对象
nullproxy_handler = urllib.request.ProxyHandler({})

# 构建自定义的opener
# 调用build_opener()方法构建一个自定义的opener对象，参数是构建的处理器对象
if proxyswitch:
    opener = urllib.request.build_opener(httporoxy_handler)
else:
    opener = urllib.request.build_opener(nullproxy_handler)

# 构建了一个全局的opener，之后所有的请求都可以用urlopen()方式去发送，也附带Handler的功能
# 注：全局代理适合设置一个代理之后不再更换代理，而需要一直更换代理的就不能设置全局代理
urllib.request.install_opener(opener)

# 构建请求
request = urllib.request.Request("http://www.baidu.com/")

# 获取响应
reponse = urllib.request.urlopen(request)

# 打印内容
print(reponse.read().decode("utf-8"))