在爬取网页的过程中,经常会出现不就前可以爬取的网页现在无法爬取的情况,这是因为您的IP地址被爬取网站的服务器屏蔽了。此时,需要设置代理,代码如下:
import requests
#创建头部信息
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'}
proxy = {'http':'http://117.88.176.38:3000','https':'https://117.88.176.38:3000'}
try:
response = requests.get('http://202020.ip138.com', headers=headers,proxies=proxy,verify=False,timeout=3)#发送网络请求
print(response.status_code)#打印响应状态码 如果等于200说明请求成功
except Exception as e:
print('错误异常信息为:',e)
由于代码中的ip是免费的,所以使用的时间不固定,如果需要稳定,请你找稳定的ip才可以
当Python爬虫遇到无法爬取网页的问题时,可能是因为IP被目标网站屏蔽。为了解决这个问题,可以使用代理IP。示例代码展示了如何在Python中设置HTTP和HTTPS代理,以避免IP限制。请注意,免费代理IP的可用性不稳定,若需长期稳定爬取,建议使用付费的稳定代理服务。

被折叠的 条评论
为什么被折叠?



