import urllib.request
def use_proxy(url,proxy_addr):
proxy=urllib.request.ProxyHandler({"http":proxy_addr})#使用代理服务器
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)#给opener
urllib.request.install_opener(opener)#添加为全局
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
return data
proxy_addr="58.218.201.188:58093"#代理网址,这里可以使用地址池,用for循环调用
url="http://www.baidu.com"#待爬url
data=use_proxy(url,proxy_addr)
print(len(data))
本文介绍了一种使用Python的urllib库通过HTTP代理服务器访问网页的方法。通过定义代理地址并设置全局代理,可以绕过直接连接限制,获取目标网站的数据。示例中演示了如何设置代理及读取指定URL的内容。
1697

被折叠的 条评论
为什么被折叠?



