Requests库
简介
Requests 是⽤Python语⾔编写,基于urllib,采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求。(Python实现的简单易⽤的HTTP库)
安装
管理员运行“命令提示符”
命令:pip install requests
测试
import requests
f=requests.get("http://www.baidu.com")#获得网页的相关内容
print(f.status_code)#返回网页的状态码,200为正常,安装成功
方法
方法 | 说明 |
---|---|
requests.request() | 构造一个请求,支撑以下各方法的基础方法 |
requests.get() | 获取HTML网页的主要方法,对应HTTP的GET |
requests.head() | 获取HTML网页头信息的方法,对应HTTP中的HEAD |
requests.post() | 向HTML网页提交POST请求方法,对应HTTP中的POST |
requests.put() | 向HTML网页提交PUT请求方法,对应HTTP中的PUT |
requests.patch() | 向HTML网页提交局部修改请求,对应HTTP中的POST |
requests.delete() | 向HTML网页提交删除请求,对应HTTP中的DELETE |
由于安全问题,post、put、patch和delete方法基本很难实现,我们重点掌握get和head方法。
requests.request(method,url,**kwargs)
method:请求方式,对应get/put/post等7种方法(对应HTTP协议的7种请求功能)
r=requests.request('GET',url,**kwargs) r=requests.request('HEAD',url,**kwargs) r=requests.request('POST',url,**kwargs) r=requests.request('PUT',url,**kwargs) r=requests.request('PATCH',url,**kwargs) r=requests.request('delete',url,**kwargs) r=requests.request('OPTIONS',url,**kwargs) #可以直接使用这些方法,或者使用基于封装request方法的其他对应方法
url:拟获取页面的url链接
**kwargs:13个控制访问参数
params:字典或字节序列,作为参数增加到url中
kv={'key1':'value1','key2':'value2'} r=requests.request('GET','https://python123.io/ws',params=kv) print(r.url)
data:字典、字节序列或文件对象,作为Request的内容
kv={'key1':'value1','key2':'value2'} r=requests.request('POST','https://python123.io/ws',data=kv) body='主体内容' r=requests.request('POST','https://python123.io/ws',data=body)
json:JSON格式的数据,作为Request的内容
kv={'key1':'value1'} r=requests.request('POST','https://python123.io/ws',json=kv)
headers:字典,HTTP定制头
hd={'user-agent':'Chrome/10'} r=requests.request('POST','https://python123.io/ws',headers=hd) #可以模拟任何我们想模拟的浏览器向服务器发起访问,这种方法就是headers字段头中实现
cookies:字典或CookieJar,Requst中的cookie
auth:元组,支持HTTP认证功能
files:字典,传输文件
fs={'file':open('data.xls','rb')} r=requests.request('POST','https://python123.io/ws',headers=fs)
timeout:设定超时时间,以秒为单位
r=requests.request('GET','https://python123.io/ws',timeout=10) #在timeout时间内,请求没有返回,产生timeout异常
proxies:字典,设定访问代理服务器,可以增加登录认证
pxs={'http':'https://user:pass@10.10.10.1:1234' 'https':'https://10.10.10.1.4321'}#可以有效隐藏用户爬取网页的源的IP地址信息,有效防止对爬虫的逆追踪 r=requests.request('GET','http://www.baidu.com',proxies=pxs)
allow_redirects:True/False,默认为True,重定向开关
stream:True/False,默认为True,获取内容立即下载开关
verify:True/False,默认为True,认证SSL证书开关
cert:本地SSL证书路径
(requests库中除了requests方法外,其他六个方法都调用了requests方法)
-
Requests对象和Response对象
request是代表HTTP请求信息的对象,response是代表HTTP响应信息的对象。
当浏览器发请求访问服务器中的某一个Servlet时,服务器将会调用Servlet中的service方法来处理请求。在调用service方法之前会创建出request和response对象。
其中request对象中封装了浏览器发送给服务器的请求信息(请求行、请求头、请求实体等),response对象中将会封装服务器要发送给浏览器的响应信息(状态行、响应头、响应实体),在service方法执行完后,服务器再将response中的数据取出,按照HTTP协议的格式发送给浏览器。
每次浏览器访问服务器,服务器在调用service方法处理请求之前都会创建request和response对象。(即,服务器每次处理请求都会创建request和response对象)
在请求处理完,响应结束时,服务器会销毁request和response对象。 -
Response对象属性
属性 说明 r.status_code HTTP请求的返回状态,200表示连接成功,404表示失败 r.text HTTP相应内容的字符串形式,即url对应的页面内容 r.encoding 从HTTPheader中猜测的相应内容编码方式 r.apparent_encoding 从内容中分析出相应内容编码方式(备选编码方式) r.content HTTP相应内容的二进制形式 -
Response编码
r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1
异常
异常 | 说明 |
---|---|
requests.ConnectionError | 网络连接错误异常,如DNS查询失败、拒绝连接等 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,产生重定向异常 |
requests.ConnectionTimeout | 连接远程服务器超时异常 |
requests.Timeout | 请求URL超时,产生超时异常 |
异常方法:r.raise_for_status()判断返回的Response类型状态,如果不是200,产生HTTPError异常
通用代码框架
import requests
def getHTMLtext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()#如果返回的状态不是200,将产生一个异常
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__=="__main__":
url="https://www.jd.com/robots.txt"
print(getHTMLtext(url))
HTTP协议
HTTP
协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。
注意:客户端与服务器的角色不是固定的,一端充当客户端,也可能在某次请求中充当服务器。这取决与请求的发起端。HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。
HTTP
是一种无状态 (stateless) 协议(第一次请求和第二次请求之间并没有相关的关联), HTTP
协议本身不会对发送过的请求和相应的通信状态进行持久化处理。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务, 提高效率。
然而,在许多应用场景中,我们需要保持用户登录的状态或记录用户购物车中的商品。由于HTTP
是无状态协议,所以必须引入一些技术来记录管理状态,例如Cookie
。
采用URL作为定位网络资源的标识,URL格式:https://host[:port] [path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省端口为80
path:请求资源路径
理解HTTPURL,URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。
方法:
方法 | 说明 |
---|---|
GET | 获取请求URL位置的资源 |
HEAD | 请求获取由URL所标识的资源的响应消息报头,即资源的头部信息 |
POST | 请求向URL位置的资源后附加新的数据 |
PUT | 请求向URL位置存储一个资源,覆盖原URL位置的资源 |
PATCH | 请求局部更新URL位置的资源,即改变该处资源的部分内容 |
DELETE | 请求删除URL位置存储的资源 |