urllib.request.urlopen（）出现的程序超时假死问题

最新推荐文章于 2024-04-08 07:24:33 发布

原创最新推荐文章于 2024-04-08 07:24:33 发布 · 610 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

文章讲述了作者遇到的一个Python爬虫在抓取网页时遇到的停滞问题，发现原因是urllib.request.urlopen()的超时设置。作者通过添加异常处理和设定请求重试策略，优化了代码，使其在请求两次无响应后自动放弃该URL，提高了爬虫的稳定性。

部署运行你感兴趣的模型镜像

写了一个百度通用爬虫，需要对很多的url进行循环处理，获取url的html，程序逻辑没有问题，但是程序经常跑着跑着就停止不动，不报错，所以一句句加输出，最终发现原来是：

pagetext = urllib.request.urlopen(request,data=None,timeout=15).read()

停止都是在这句查找资料得知，urlopen()有一个超时参数，当长时间获取不到响应时，则报错，所以结合python异常处理，更改代码如下：

由于url数量较多，在请求了两次无响应则舍弃。

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sfwqwfew

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【已解决】Python3使用urlopen()方法报错

adorable_的博客

05-10

964

urllib.error.URLError:

urllib.request.urlopen()与urllib.request.Request()

星博

08-05

709

使用urllib.request.urlopen()与urllib.request.Request() 获得响应 import urllib.request r = urllib.request.urlopen('https://gzdaily.dayoo.com/pc/html/2020-08/04/content_132879_713872.htm') html = r.read().decode('utf-8') print(html) 这便是一个简单向网站发请求的框架，这种时候经常遇到反爬，比如使用

参与评论您还未登录，请先登录后发表或查看评论

python服务urllib.request.urlopen出现的僵死

henly1217的专栏

02-17

1432

在一个python服务中，循环去服务器查询任务，是不是就会出现僵死，程序不跑了。经过搜索，urllib.request.urlopen在不设置超时的情况下，会僵死在read()函数里。参考这个，https://blog.csdn.net/weixin_30470857/article/details/96768756 在机器上执行‘netstat | grep端口号’，发现一个连接一直存在；正是验证了这个问题。正常情况下，连接可能会断开，在重新建立；而这个僵死的连接就一直在这里，而read()也.

urllib.request.urlopen参数timeout不起作用

kao_lengmian的博客

08-09

748

urllib.request.urlopen timeout不起作用问题解决，当然不是唯一解。。。

python3.7 urllib.request.urlopen() timeout 设置超时时间

曹恭铖的博客

12-03

1万+

urllib.request.urlopen(url,timeout=3) 记录一下

python3 使用urllib.request.urlopen及re.findall爬取网页图片并保持本地

Wu_Jianing的博客

02-06

1813

本例使用urllib及re正则表达式，爬取网页上（王俊凯百度百科）所有以jpg结尾的图片，并保存本地。 import re from urllib.request import urlopen if __name__ == '__main__': url = r'https://baike.baidu.com/item/%E7%8E%8B%E4%BF%8A%E5%87%AF/75850?...

Python urllib.request对象案例解析

12-17

1. **urllib.request**模块： - `urllib.request`是`urllib`库的核心部分，它提供了构建HTTP请求的功能。你可以使用这个模块来模拟浏览器的行为，比如发送GET或POST请求，处理重定向和验证。 - 常用的方法包括： ...

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

3. 发起请求：使用`urllib.request.urlopen()`获取网页内容，内容以字节形式返回，通常需要解码为字符串。 4. 解析HTML：将获取的HTML内容传给`BeautifulSoup`，并指定解析器（如`html.parser`）。然后，可以使用...

urllib.error.URLError: ＜urlopen error [Errno 111] Connection refused＞

weixin_44466434的博客

12-22

1811

urllib2.urlopen超时未设置导致程序卡死

weixin_30470857的博客

12-16

818

没有设置timeout参数，结果在网络环境不好的情况下，时常出现read()方法没有任何反应的问题，程序卡死在read()方法里，搞了大半天，才找到问题，给urlopen加上timeout就ok了，设置了timeout之后超时之后read超时的时候会抛出socket.timeout异常，想要程序稳定，还需要给urlopen加上异常处理，再加上出现异常重试，程序就完美了。 impo...

Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)

Malik的博客

09-27

3997

python3 抓取网页资源的 N 种方法 1、最简单 import urllib.request response = urllib.request.urlopen('http://python.org/') html = response.read() 2、使用 Request import urllib.request req = urllib.reques

Python学习笔记（二）urllib.urlopen()超时问题 : 504Gateway Time-out

无敌嗨猫的博客

05-15

1万+

urllib.urlopen()超时问题 : 504Gateway Time-out问题描述：没有设置timeout参数，结果在网络环境不好的情况下，时常出现read()方法没有任何反应的问题，程序卡死在read()方法里，搞了大半天，才找到问题，给urlopen加上timeout就ok了. 设置了timeout之后超时之后read超时的时候会抛出socket.timeout异常，想...

urllib2.urlopen超时问题

热门推荐

waterforest的专栏

11-22

5万+

原帖地址：http://hi.baidu.com/yss1983/item/933fbe45a09c43e01381da06 问题描述：没有设置timeout参数，结果在网络环境不好的情况下，时常出现read()方法没有任何反应的问题，程序卡死在read()方法里，搞了大半天，才找到问题，给urlopen加上timeout就ok了，设置了timeout之后超时之后read超时的时候会

python爬虫之urllib,伪装,超时设置,异常处理

Key_book(句芒安全实验室)

05-09

7016

Urllib Urllib.request.urlopen().read().decode() 返回一个二进制的对象，对这个对象进行read()操作，可以得到一个包含网页的二进制字符串，然后用decode()解码成html源码 urlretrieve() 将一个网页爬取到本地 urlclearup() 清除 urlretrieve()所产生的缓存 info() 返回一个ht...

python下载特别慢-Python3 用 urllib 下载图片非常慢，会是什么原因呢？

q6q6q的专栏

10-28

1482

初学者想学写个爬虫，边学边写想要下载一张 Y 站的图片，代码为urllib.request.urlopen('http://xxx.jpg').read()其中 url 是可以正常访问的。图片不大，浏览器打开只需要几秒（排除缓存原因）。但在 python 中下载它却需要 30+秒，将下载到的数据写出为文件是可以正常查看的那么问题来了，究竟是什么原因导致下载一张图片那么慢呢？请问是还有什么地方需要配...

python request 请求超时处理_Python3 如何正确处理超时并重试？

weixin_39797324的博客

12-03

1845

一段为 POST 获取数据的代码，#! /usr/local/python3import urllibimport httpimport timeimport sockettimeout = 10socket.setdefaulttimeout(timeout)def up_post(username, password, page):data = {'username': username, '...

python爬虫urllib模块详解

2401_84009549的博客

04-08

1113

url = ‘https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’req = urllib.request.Request(url, data=data, headers=headers)res = urllib.request.urlopen(req)html = res.read().decode(‘utf-8’)dic = json.loads(html)result = dic[“translateResult”]

如何设置urllib.request.urlopen()的超时时间？