处理python3爬虫问题：urlopen error [Errno 111] Connection refused 或 urlopen error timed out

最新推荐文章于 2025-07-22 12:41:34 发布

szZack

最新推荐文章于 2025-07-22 12:41:34 发布

阅读量1.1w

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫常见问题

本文链接：https://blog.youkuaiyun.com/zengNLP/article/details/97613781

常见问题同时被 2 个专栏收录

35 篇文章

订阅专栏

爬虫

4 篇文章

订阅专栏

本文探讨了在爬虫过程中遇到的代理IP连接失败或超时等问题，详细介绍了通过建立代理IP池并采用异常处理机制来提高爬虫稳定性的方法。文章提供了具体的Python示例代码，展示了如何自动剔除无效IP，确保爬虫高效运行。

问题

爬虫时使用代理，经常会出现
<urlopen error [Errno 111] Connection refused>
或者
<urlopen error timed out>
这类的错误，造成这类问题的原因是代理ip不可用或者质量差，解决方法如下：

方法

1、建立代理ip池
2、使用try… except… 处理异常，删除无效ip，示例代码：

def crawl_web_data(url, proxy_ip_list):

    if len(proxy_ip_list) == 0:
        return ''
    proxy_ip_dict = proxy_ip_list[0]
   
    try:
        html = download_by_proxy(url, proxy_ip_dict)
        print(url, 'ok')
            
    except Exception as e:
        #print('e', e)
        #删除无效的ip
        index = proxy_ip_list.index(proxy_ip_dict)
        proxy_ip_list.pop(index)
        print('proxy_ip_list', len(proxy_ip_list))
        
        return crawl_web_data(url, proxy_ip_list)#再次尝试爬取
        
    return html