二、爬取网页的通用代码框架

最新推荐文章于 2023-10-27 00:13:06 发布

原创最新推荐文章于 2023-10-27 00:13:06 发布 · 470 阅读

0 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

22 篇文章

订阅专栏

本文介绍使用Requests库进行网页爬取时可能遇到的各种异常情况及处理方法，并提供了一段示例代码，展示了如何通过r.raise_for_status()方法来检查HTTP响应状态。

二、爬取网页的通用代码框架（课程笔记）

Requests库的异常
异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常（指从请求到响应的整个过程）
requests.Timeout	请求URL超时，产生超时异常（仅指与服务器连接的时间）

r.raise_for_status()方法:
判断返回的respones类型是不是200，是200返回的内容是正确的，如果不是200产生异常requests.HTTPError

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常
        r.encoding=r.apparent_encoding#使返回密码的解码是正确的
        return r.text
    except:
        return '产生异常'

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))