python3爬虫学习笔记(三)urllib.error学习

本文详细介绍了Python中urllib.error模块的作用及分类,包括URLError和HTTPError的区别,并通过实例展示了如何处理这两种错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、urllib.error模块

urllib.error是什么:在爬虫的时候发请求的时候难免出现错误,出错了之后urllib将错误信息封装成了一个模块urllib.error

error的分类:

分为URLError和HTTPError(URLError是OSError的一个子类,HTTPError是URLError的一个子类)。

URLError:无网络无法连接到服务器,有网络但是由于种种原因导致服务器连接失败,能够连接服务器但是服务器返回了错误代码如404(一般400以上都是错误)(这个情况是封装在HTTPError)。

HTTPError:服务器上HTTP的响应会返回一个状态码(之前提到的http状态码200),根据这个HTTP状态码,我们可以知道我们的访问是否成功。

实例看看URLError:

import urllib.request
import urllib.error
#不存在的网址
url = "http://www.keaideni.com/"
rep = urllib.request.Request(url)
try:
    response = urllib.request.urlopen(rep)
    html = response.read().decode("utf-8")
    print(html)
except urllib.error.URLError as a:#as改变被导入模组在当前模组中的名称
    print(a.reason)
'''
顺便复习一下try/except语句
格式为:
try:
     Normal execution block
except A:
     Exception A handle
except B:
     Exception B handle
except:
     Other exception handle
说明:
执行Normal execution block如果有异常就到except找到对应的错误,如果找不到对应的错误
就会去except(有写的话)或者是直接终止程序报错。
经常组合try/except/else/finally一起使用
'''
[Errno 11001] getaddrinfo failed
#获取地址失败

实例看HTTPError:

import urllib.request
import urllib.error
#不存在的网址
url = "https://www.bilibili.com/tom_jack.html"
#www.bilibili.com服务器存在但是没有这个资源
rep = urllib.request.Request(url)
try:
    response = urllib.request.urlopen(rep)
except urllib.error.HTTPError as a:
    print(a.code)
#能够连接服务器但是服务器返回了错误代码
404

实例看HTTPError是URLError的一个子类:

如果想一起检测异常HTTPError和URLError,那么需要将HTTPError放在URLError的前面。

import urllib.request
import urllib.error
#不存在的网址
url = "https://www.bilibili.com/tom_jack.html"
rep = urllib.request.Request(url)
try:
    response = urllib.request.urlopen(rep)
except urllib.error.HTTPError as a:
    print(a.code)
except urllib.error.URLError as a:
    print(a.reason)
404

总结:之前学习的pyhton基础不够牢固,虽然try/except已经学过了,但还是去查了一下。

下篇开始学习用scrapy来进行爬虫...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值