《2018年5月23日》【连续224天】
标题:Requests库入门;
内容:
A.
1. requests.get(url) :构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象;
get(url,params,**kwargs)
2.Response对象的属性:
r.status_code:200表示访问成功,404表示失败;
r.text:url对应的页面内容
r.encoding:从HTTP header中猜测的响应内容编码方式
r.apparent_encoding:从内容中分析出的响应内容编码方式;
r.content:HTTP响应内容的二进制方式;
B.Requests库有六种异常处理;
C.爬取网页的通用代码:
import requests
def getHTMLText(url):
try:
r = requests.get(url , timeout=30)
r.raise_for_status()
r.encoding= r.apparent_encoding
return r.text
except:
return "产生异常"
if _name_ == "_main_":
url ="https://www.baidu.com"
print(getHTMLText(url))