python之requests库的介绍

最新推荐文章于 2024-12-14 11:27:40 发布

原创最新推荐文章于 2024-12-14 11:27:40 发布 · 380 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

23 篇文章

订阅专栏

本文介绍了Python的requests库，讲解了get方法的使用，包括params参数和控制访问的kwargs参数。还概述了HTTP协议的基本概念，如URL格式、HTTP方法，并提及了headers、cookies等请求定制选项。此外，提到了其它HTTP方法如head、post、put、patch和delete。

一、get方法

访问某一网页的方法：

r=requests.get(url)-------即构造一个向服务器请求资源的requests对象

例子如下：

>>> import requests
>>> r=requests.get("http://www.baidu.com")//访问百度，返回一个包含服务器资源的Response对象
>>> r.status_code//返回值若为200，即成功
200
>>> r.encoding = 'utf-8'//编码修改
>>> r.text//打印网页内容
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn"></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>新闻</a> <a href=http://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地图</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>视频</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>贴吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登录</a> </noscript> <script>document.write(\'<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=\'+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ \'" name="tj_login" class="lb">登录</a>\');</script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">更多产品</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>关于百度</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使用百度前必读</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意见反馈</a>&nbsp;京ICP证030173号&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'
>>>

完整格式如下：

requests.get(url,params=None,**kwargs)

url:拟获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

Response对象的属性
属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，即，url对应的页面内容
r.encoding	从HTTP header中猜测的响应内容的编码形式
r.apparent_encoding	从内容中分析出的响应内容的编码形式（备选编码形式）
r.content	HTTP响应内容的二进制形式

r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1

Requests库六种常用的连接异常
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL时，产生超时异常

Requests库的异常
异常	说明
r.raise_for_status()	如果不是200，产生异常requests.HTTPError

爬取网页的通用代码框架（需正确处理异常）

import requests

def getHTMLText(url)
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()#如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "_main__":
   url = "http://www.baidu.com"
   print(getHTMLText(url))

HTTP协议与requests库的主要方法

Requests库的7个主要方法
方法	说明
requests.request(）	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应于HTTP的DELETE

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种
url：拟获取页面的url链接
**kwarges:控制访问的参数，共13个

**kwargs:控制访问的参数，均为可选项

<1>params:字典或字节序列，作为参数增加到url种//即对URL进行修改的字段

kv = {'key1':'value1','key2':'value2'}

r = requests.request('GET', 'http://wwww.baidu.com', params = kv)

print(r.url)

(http://wwww.baidu.com?key1 = value1 & key2 = value2)

<2>data:字典、字节序或文件对象，重点作为向服务器提交资源使用

kv = {'key1':'value1','key2':'value2'}

r = requests.request('POST', 'http://wwww.baidu.com', data = kv)



body = '主体内容'

r = requests.request('POST', 'http://wwww.baidu.com', data = body)

<3>json:JSON格式的数据，作为Requests的内容

kv = {'key1':'value1'}

r = requests.request('POST', 'http://wwww.baidu.com', json = kv)

<4>headers:字典，HTTP定制头

hd = {'user-agent':'Chrome/10'}//模拟任意浏览器的方式

r = requests.request('POST', 'http://wwww.baidu.com', hearders = hd)

<5>cookies:字典或CookieJar,Request中的cookie

<6>auth:元组，支持HTTP认证功能

<7>files:字典类型，传输文件

fs = {'file' : open('data.xls', 'rb' )}//file以键值对的方式表示出来

r = requests.request( 'POST', 'http://www.baidu.com', file = fs)

<8>timeout:设定超时时间，秒为单位

r = requests.request('GET', 'http://www.baidu.com', timeout = 10)

<9> proxies:字典类型，设定访问代理服务器，可以增加登录认证

pxs = { 'http': 'http://user:pass@10.10.10.1:1234'
        'https': 'https"//10.10.10.1:4321' }//隐藏用户爬取网页的源IP地址

r = requests.request('GET", 'http://wwww.baidu.com', proxis = pxs)

<10>allow_redirects: True/False,默认为True,重定向开关

<11>stream:True/False,默认为True,获取内容立即下载开关

<12>verify:True/False,默认为True,认证SSL证书开关

<13>cert:本地SSL证书路径

requests.get(url,params = None, **kwargs)

url:拟获取页面的url链接

params：url中的额外参数，字典或字节流格式，可选

**kwargs：12个控制访问的参数

requests.head(url,**kwargs)

url:拟获取页面的url链接

**kwargs:13个控制访问的参数

requests.post(url, data =None, json = None, **kwargs)

url:拟更新页面的url链家

data:字典、字节序列或文件，Request的内容

json:JSON格式的数据，Request的内容

**kwargs：11个控制访问的参数

requests.put(url, data =None, **kwargs)

url:拟更新页面的url链家

data:字典、字节序列或文件，Request的内容

**kwargs：12个控制访问的参数

requests.patch(url, data =None, **kwargs)

url:拟更新页面的url链家

data:字典、字节序列或文件，Request的内容

**kwargs：12个控制访问的参数

requests.delete(url,, **kwargs)

url:拟删除页面的url链家

**kwargs：13个控制访问的参数

HTTP协议：Hypertext Transfer Protocol,超文本传输协议，是一个基于“请求与响应”模式的、无状态的应用层协议。采用URL作为定位网络资源的标识。

URL格式：http://host[:port][path]

host：合法的Internet主机域名和IP地址

port：端口号，缺省端口为80

path：请求资源的路径

HTTP协议对资源的操作
方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置资源的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

HTTP协议与Requests库
HTTP协议方法	Requests库方法	功能一致性
GET	requests.get()	一致
HEAD	requests.head()	一致
POST	requests.post()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

Requests库的head()方法：

r = requests.head('http://www.baidu.com')

r.headers

Requests库的POST方法：

payload = {'key1':'value1','key2':'value2'}

r = requests.post('http://www.baidu.com', data=payload)

r.text
//自动编码为form(表单）

r = requests.post('http://www.baidu.com', data=“ABC")

r.text
//自动编码为data形式

put方法与之类似