Python requests“Max retries exceeded with url” error

今天写python网络爬虫的时候遇到一个问题,报错的具体内容如下:

HTTPConnectionPool(host='dds.cr.usgs.gov', port=80): Max retries exceeded with url: /ltaauth//sno18/ops/l1/2016/138/037/LC81380372016038LGN00.tar.gz?id=stfb9e0bgrpmc4j9lcg45ikrj1&iid=LC81380372016038LGN00&did=227966479&ver=production (Caused by NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x105b9d210>: Failed to establish a new connection: [Errno 65] No route to host',))

多方查阅后发现了解决问题的原因:http连接太多没有关闭导致的

解决办法:

1、增加重试连接次数

  requests.adapters.DEFAULT_RETRIES = 5

2、关闭多余的连接

requests使用了urllib3库,默认的http connection是keep-alive的,requests设置False关闭。

操作方法

s = requests.session()
  s.keep_alive = False
### 出现 `Max retries exceeded` 错误的原因 当使用 Python 的 `requests` 库发起 HTTP 请求时,如果目标服务器无法正常响应或者网络连接存在问题,则可能会触发 `MaxRetriesExceededError` 异常。这种错误通常表明客户端尝试多次重新连接到指定的 URL 都失败了。 常见的原因包括但不限于以下几点[^2]: - **错误的 URL**: 如果输入的目标地址不正确或不可访问。 - **SSL 证书验证问题**: 当请求需要 SSL/TLS 加密通信而未提供有效的认证文件时会引发此问题。 - **网络波动或中断**: 不稳定的互联网环境可能导致数据包丢失从而造成超时现象。 - **过多并发请求或服务端负载过高**: 过度频繁地向同一资源发出大量查询可能使对方拒绝进一步的服务请求。 针对上述情况有多种方法可以缓解该类异常的发生: --- ### 解决方案概述 #### 方法一:确认并修正URL路径准确性 确保所提供的链接绝对无误,并且能够被成功解析指向实际存在的网页位置。 #### 方法二:禁用SSL验证 (需谨慎操作) 对于某些特殊场景下不需要严格遵循安全协议的情况,可以通过设置参数来跳过HTTPS握手过程中的身份校验环节。然而这样做存在潜在风险,请仅限于测试环境中应用此项调整: ```python response = requests.get('https://example.com', verify=False) ``` > 注意: 关闭ssl验证虽然能暂时规避部分因加密机制引起的麻烦,但从长远来看并不推荐作为常规手段. #### 方法三:优化网络状况下的鲁棒性设计 通过引入重试策略增强程序抵抗瞬态故障的能力。下面展示了一个利用urllib3内置功能实现自定义最大尝试次数的例子[^3]: ```python from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry session = requests.Session() retry_strategy = Retry( total=5, status_forcelist=[429, 500, 502, 503, 504], method_whitelist=["HEAD", "GET", "OPTIONS"], backoff_factor=1 ) adapter = HTTPAdapter(max_retries=retry_strategy) session.mount("http://", adapter) session.mount("https://", adapter) try: response = session.get('https://example.com') except Exception as e: print(f"An error occurred while making the request:{e}") finally: session.close() ``` 在此配置里设置了总共允许最多五次额外努力机会;列举出了哪些HTTP状态码应该促使再次发送同样的指令而非立即放弃;规定适用的动作类型列表以及每次等待间隔时间的增长系数(backoff factor). #### 方法四:合理控制请求频率避免压垮远程主机 适当延长两次连续调用之间的时间差有助于减轻目标站点的压力水平,进而减少遭遇封锁的可能性. 可考虑加入随机延时逻辑: ```python import time import random time.sleep(random.uniform(1, 3)) # 让每一次循环间歇期介于一秒至三秒范围内浮动变化 ``` 另外还可以借助代理池技术分散流量来源方向达到相同效果的同时提高抓取效率。 --- ### 总结说明 综上所述,面对`Max retries exceeded with url`这类难题可以从多个角度切入寻找突破口——无论是核实基础信息还是改良现有架构都值得深入探讨实践一番。最终目的是构建更加稳固可靠的自动化流程体系,在保障性能指标达标前提下兼顾用户体验满意度提升。
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值