使用代理IP来爬取网页可以提高爬虫的稳定性和匿名性。下面是一个使用代理IP的简单示例:
import requests
# 设置代理IP
proxies = {
'http': 'http://ip_address:port',
'https': 'https://ip_address:port',
}
# 发起请求,并使用代理IP
response = requests.get('http://www.example.com', proxies=proxies)
# 检查响应状态码
if response.status_code == 200:
# 处理正常响应数据
print(response.text)
else:
# 处理错误情况
print('请求失败')
在上面的示例中,ip_address和port代表代理IP的地址和端口号。可以根据实际情况替换为有效的代理IP。
需要注意的是,代理IP可能会有稳定性问题或被网站屏蔽的风险。因此,在使用代理IP时,建议使用多个代理IP,并且定期更换。可以通过一些免费或付费的代理IP服务提供商获取代理IP。
本文介绍了如何使用Python的requests库结合代理IP提高网页爬虫的稳定性和匿名性,包括设置代理IP、处理响应状态码以及考虑代理IP的可用性和风险。
917

被折叠的 条评论
为什么被折叠?



