Python爬虫error处理

最新推荐文章于 2024-04-27 16:14:52 发布

原创最新推荐文章于 2024-04-27 16:14:52 发布 · 621 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

在Python爬虫开发中，面对可能出现的异常情况，应当优雅地处理并避免直接暴露详细错误信息。通常做法是使用try-except语句，将可能抛出异常的代码段包裹起来，并在except块中给出用户友好的提示。

内容解释：

在制作爬虫项目时，面对异常信息，不能直接反馈给用户，而要以异常处理返回给用户。

即

try：

自己所要做异常处理的代码；

except 错误类型：

返回给用户的提示信息；

代码实现：

import urllib.request
import urllib.error
# url链接包括六个部分
# 协议部分  http/https   主机名  www.blog.youkuaiyun.com   端口80/443(对应前面的协议)   文件路径   /wangyuxiang946/article/details/121560631   参数     锚点

# # 某文章的正确url路径
# url = 'https://blog.youkuaiyun.com/wangyuxiang946/article/details/121560631'

# # 文件路径错误
# url = 'https://blog.youkuaiyun.com/wangyuxiang946/article/details/1215606311'

# 主机名有误
url = 'https://www.hljcn.com'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0'
}

try:
    # 请求对象的定制
    request = urllib.request.Request(url=url,headers=headers)

    # 获取响应数据
    response = urllib.request.urlopen(request)

    content = response.read().decode('utf-8')

    # 打印数据
    print(content)
except urllib.error.HTTPError:
    print("该链接中的文件路径有误")
except urllib.error.URLError:
    print("该链接中的主机名有误")

    # 一般来说error中HTTPError是文件路径部分错误 文件路径可能不存在或者文件路径有误
    # 一般来说error中URLError是主机名部分有误  主机名不存在