python爬虫学习笔记

最新推荐文章于 2022-10-29 02:40:50 发布

Arxan_hjw

最新推荐文章于 2022-10-29 02:40:50 发布

阅读量145

点赞数

本文链接：https://blog.youkuaiyun.com/qq_41657873/article/details/105191985

版权

python爬虫——Requests库

r = requests.get(url)
requests库的两个重要对象：Response和Request，其中Response对象包含爬虫所返回的内容。

Response对象的属性：

r.status_code：HTTP请求的返回状态，200表示连接成功，404表示失败。
r.text：HTTP响应内容的字符串形式，即url对应的网页内容。
r.encoding：从HTTP header中猜测的相应内容编码方式。
r.apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）。
r.content：HTTP响应内容的二进制格式。

Request库的异常处理

requests.ConnectionError：网络连接错误异常
requests.HTTPError：HTTP错误异常
requests.URLRquired：URL缺失异常
requests.TooManyRedirects：超过最大重定向次数，产生重定向异常
requests.ConnectTimeout：连接远程服务器超时异常
requests.Timeout：请求URL超时，产生超时异常

r.raise_for_status()：如果返回不是200，产生异常requests.HTTPError
eg：爬取网页的通用代码框架
import requests def getHTTPText(url): try: r = requests.get(url,timeout = 30) r.raise_for_status() r.encoding = r.appraent_encoding return r.text except: return "产生异常" if __name__ == "__main__": url = "http://www.baidu.com" print(getHTMLText(url)) `