一、urllib.error模块
urllib.error是什么:在爬虫的时候发请求的时候难免出现错误,出错了之后urllib将错误信息封装成了一个模块urllib.error
error的分类:
分为URLError和HTTPError(URLError是OSError的一个子类,HTTPError是URLError的一个子类)。
URLError:无网络无法连接到服务器,有网络但是由于种种原因导致服务器连接失败,能够连接服务器但是服务器返回了错误代码如404(一般400以上都是错误)(这个情况是封装在HTTPError)。
HTTPError:服务器上HTTP的响应会返回一个状态码(之前提到的http状态码200),根据这个HTTP状态码,我们可以知道我们的访问是否成功。
实例看看URLError:
import urllib.request
import urllib.error
#不存在的网址
url = "http://www.keaideni.com/"
rep = urllib.request.Request(url)
try:
response = urllib.request.urlopen(rep)
html = response.read().decode("utf-8")
print(html)
except urllib.error.URLError as a:#as改变被导入模组在当前模组中的名称
print(a.reason)
'''
顺便复习一下try/except语句
格式为:
try:
Normal execution block
except A:
Exception A handle
except B:
Exception B handle
except:
Other exception handle
说明:
执行Normal execution block如果有异常就到except找到对应的错误,如果找不到对应的错误
就会去except(有写的话)或者是直接终止程序报错。
经常组合try/except/else/finally一起使用
'''
[Errno 11001] getaddrinfo failed
#获取地址失败
实例看HTTPError:
import urllib.request
import urllib.error
#不存在的网址
url = "https://www.bilibili.com/tom_jack.html"
#www.bilibili.com服务器存在但是没有这个资源
rep = urllib.request.Request(url)
try:
response = urllib.request.urlopen(rep)
except urllib.error.HTTPError as a:
print(a.code)
#能够连接服务器但是服务器返回了错误代码
404
实例看HTTPError是URLError的一个子类:
如果想一起检测异常HTTPError和URLError,那么需要将HTTPError放在URLError的前面。
import urllib.request
import urllib.error
#不存在的网址
url = "https://www.bilibili.com/tom_jack.html"
rep = urllib.request.Request(url)
try:
response = urllib.request.urlopen(rep)
except urllib.error.HTTPError as a:
print(a.code)
except urllib.error.URLError as a:
print(a.reason)
404
总结:之前学习的pyhton基础不够牢固,虽然try/except已经学过了,但还是去查了一下。
下篇开始学习用scrapy来进行爬虫...