通用代码框架
Python网络爬虫与信息提取-北理工 嵩天(大学mooc)
本课B站版
requests模块提供了六种报错格式,分别是
requests.ConnectionError 网络连接错误(DNS,拒绝连接)
requests.HTTPError HTTP错误
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数
requests.ConnectionError 连接服务器超时
requests.Timeout 请求URL超时
其中还有一个侦测status状态的语句
r.raise_for_status 不是200,产生异常requests.HTTPError
通用代码模块便是基于此进行的
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "Error"
if __name__ == "__main__":
url = "http://www.baidu.com"
print(getHTMLText(url))
运行后,如果没有错误,会显示和之前同样的信息,但是如果报错,就可以显示Error
本文介绍Python网络爬虫中使用requests模块的常见错误处理方法,包括网络连接错误、HTTP错误等,并提供了一个基于这些错误的通用代码框架。
1484

被折叠的 条评论
为什么被折叠?



