Requests库的入门

最新推荐文章于 2021-07-09 14:22:51 发布

又土又木的coder

最新推荐文章于 2021-07-09 14:22:51 发布

阅读量340

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 爬虫 Requests库文章标签： python 爬虫 requests库

本文链接：https://blog.youkuaiyun.com/qq_38587091/article/details/79183071

python 同时被 3 个专栏收录

4 篇文章

订阅专栏

爬虫

4 篇文章

订阅专栏

Requests库

2 篇文章

订阅专栏

requests库的安装

windows平台下，以管理员模式运行cmd

requests库的7个主要用法

方法	说明
requests.requests()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应于HTTP的GET
requests.head()	获取网页头信息的的方法，对应于HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应于HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应于HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的的PATCH
requests.delete()	向HTML页码提交删除请求，对应于HTTP的的DELETE

requests库的get()方法

requests.get(url , params = None, **kwargs)

url : 拟获取页面的URL连接
params : URL中的额外参数，字典或字节流格式，可选
**kwargs ：12个控制访问的参数

这里写图片描述

requests库的两个重要对象

 r           =      requests.get(url)

Response —————————Request

Response对象

Response对象包含服务器返回的所有信息，也包含请求的Request信息

Response对象的属性

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404或其他表示失败
r.text	HTTP响应内容的字符串形式，即URL对应的页面内容
r.encoding	从 HTTP header中猜测的响应内容编码方式
r.apparent_encoding	从内容中分析的响应内容编码的方式（备选编码方式）
r.content	HTTP响应内容的二进制形式

理解Response的编码

r.encoding :如果header中不存在charset,则默认编码为ISO-8859-1.r.text根据r.encoding显示网页内容
r.apparent_encoding :根据网页内容分析出的编码方式可以看作是r.encoding的备选

理解Requests库的异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败，拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

r.raise_for_status() ：如果不是 200，产生异常reuqests.HTTPError
r.raise_for_status()在方法内部判断r.status_code是否等于200，不需要增加额外的if语句，该语句便于利用try-except进行异常处理

爬取网页的通用代码框架

import requests
def getHTMLText(url)；
    try：
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
    except:
        return "产生异常"
if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

HTTP协议

HTTP：超文本传输协议
HTTP是一个基于“请求与响应”模式的，无状态的应用层协议
HTTP协议采用URL作为定位网络资源的标识，URL格式如下;
http://host[:port][path]
host：合法的Internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源的路径

HTTP协议对资源的操作

方法	说明
GET	请求获取URL位置的资源
HEAD	请求获取URL位置的响应消息报告，即获得该资源的头部信息
POST	请求向URL位置的资源附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源

HTTP协议与Requests库

HTTP协议	Requests库方法	功能一致性
GET	reuqests.get()	一致
HEAD	requests.head()	一致
POST	requests.post()	一致
PUT	requests.put()	一致
PATCH	requests.patch()	一致
DELETE	requests.delete()	一致

Requests库主要方法解析

requests.requests(method, url, **kwargs)

method :请求方式，对应get/put/post等7种方法
r=requests.request(‘GET’, url, **kwargs)
r=requests.request(‘HEAD’, url, **kwargs)
r=requests.request(‘POST’, url, **kwargs)
r=requests.request(‘PUT’, url, **kwargs)
r=requests.request(‘PATCH’, url, **kwargs)
r=requests.request(‘DELETE’, url, **kwargs)
url：拟获取页面的URL链接
**kwargs：控制访问的参数，共13个

params : 字典或字节序列，作为参数增加到URL中

import requests
kv = {'key1':'value1','key2':'value2'}
r=requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
https://python123.io/ws?key1=value1&key2=value2

data ：字典，字节序列或文件对象，作为Request的对象

import requests
kv = {'key1':'value1','key2':'value2'}
r=requests.request('POST','http://python123.io/ws',data=kv)

json ：JSON格式的数据，作为Request的内容

kv={'key1':'value1'}
r=requests.request('POST', 'http://python123.io/ws',json=kv)

headers :字典，HTTP定制头

hd={'user-agent':'Chrome/10'}
r=reuqests.request('POST', 'http://python123.io/ws',headers=hd)

cookies :字典或CookieJar, Request中的cookie
auth : 元组，支持HTTP认证功能
files ：字典类型，传输文件

fs = {'file':open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)

timeout ：设定超时时间，秒为单位

r = requests.request('GET','http://www.baidu.com',timeout=10)

proxies ：字典类型，设定访问代理服务器，可以增加登录认证

pxs = {'http':'http://user:pass@10.10.10.1:1234'
'https':'https://10.10.10.1:1234 }
r.requests.rrequest('GET','http://www.baidu.com',proxies=pxs)

allow_redirects :True/False，默认为True，重定向开关
steam ：True/False , 默认为True，获取内容立即下载开关
verify ：True/False ，默认为True，认证SSL证书开关
cert ：本地SSL证书路径

Requests库的入门

requests库的安装

requests库的7个主要用法

requests库的get()方法

requests库的两个重要对象

Response对象

Response对象的属性

理解Response的编码

理解Requests库的异常

爬取网页的通用代码框架

HTTP协议

HTTP协议对资源的操作

HTTP协议与Requests库

Requests库主要方法解析

requests.requests(method, url, **kwargs)

requests.get(url, params=None, **kwargs)

requests.hesd(url, **kwargs)

reuqests.post(url, data=None, json=None, **kwargs)

reuqests.put(url, data=None,**kwargs)

requests.patch(url , data=None, **kwargs)

requests.delete(url, **kwargs)