爬虫入门-Request库

锦素流年58

已于 2023-09-24 19:13:06 修改

阅读量1k

点赞数

文章标签： python 网络爬虫

于 2023-09-24 18:14:22 首次发布

本文链接：https://blog.youkuaiyun.com/qq_61090079/article/details/133247015

版权

Requests库

简介

Requests 是⽤Python语⾔编写，基于urllib，采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便，可以节约我们⼤量的⼯作，完全满⾜HTTP测试需求。(Python实现的简单易⽤的HTTP库)

安装

管理员运行“命令提示符”

命令：pip install requests

测试

import requests
f=requests.get("http://www.baidu.com")#获得网页的相关内容
print(f.status_code)#返回网页的状态码，200为正常,安装成功

方法

方法	说明
requests.request()	构造一个请求，支撑以下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应HTTP的GET
requests.head()	获取HTML网页头信息的方法，对应HTTP中的HEAD
requests.post()	向HTML网页提交POST请求方法，对应HTTP中的POST
requests.put()	向HTML网页提交PUT请求方法，对应HTTP中的PUT
requests.patch()	向HTML网页提交局部修改请求，对应HTTP中的POST
requests.delete()	向HTML网页提交删除请求，对应HTTP中的DELETE

由于安全问题，post、put、patch和delete方法基本很难实现，我们重点掌握get和head方法。

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种方法（对应HTTP协议的7种请求功能）
r=requests.request('GET',url,**kwargs)
r=requests.request('HEAD',url,**kwargs)
r=requests.request('POST',url,**kwargs)
r=requests.request('PUT',url,**kwargs)
r=requests.request('PATCH',url,**kwargs)
r=requests.request('delete',url,**kwargs)
r=requests.request('OPTIONS',url,**kwargs)
#可以直接使用这些方法，或者使用基于封装request方法的其他对应方法
url:拟获取页面的url链接

**kwargs:13个控制访问参数

params:字典或字节序列，作为参数增加到url中
kv={'key1':'value1','key2':'value2'}
r=requests.request('GET','https://python123.io/ws',params=kv)
print(r.url)
data:字典、字节序列或文件对象，作为Request的内容
kv={'key1':'value1','key2':'value2'}
r=requests.request('POST','https://python123.io/ws',data=kv)
body='主体内容'
r=requests.request('POST','https://python123.io/ws',data=body)
json:JSON格式的数据，作为Request的内容
kv={'key1':'value1'}
r=requests.request('POST','https://python123.io/ws',json=kv)
headers:字典，HTTP定制头
hd={'user-agent':'Chrome/10'}
r=requests.request('POST','https://python123.io/ws',headers=hd)
#可以模拟任何我们想模拟的浏览器向服务器发起访问，这种方法就是headers字段头中实现
cookies:字典或CookieJar,Requst中的cookie

auth:元组，支持HTTP认证功能

files:字典，传输文件
fs={'file':open('data.xls','rb')}
r=requests.request('POST','https://python123.io/ws',headers=fs)
timeout:设定超时时间，以秒为单位
r=requests.request('GET','https://python123.io/ws',timeout=10)
#在timeout时间内，请求没有返回，产生timeout异常
proxies:字典，设定访问代理服务器，可以增加登录认证
pxs={'http':'https://user:pass@10.10.10.1:1234'
	 'https':'https://10.10.10.1.4321'}#可以有效隐藏用户爬取网页的源的IP地址信息，有效防止对爬虫的逆追踪
r=requests.request('GET','http://www.baidu.com',proxies=pxs)
allow_redirects:True/False,默认为True,重定向开关

stream:True/False,默认为True,获取内容立即下载开关

verify:True/False,默认为True,认证SSL证书开关

cert:本地SSL证书路径

（requests库中除了requests方法外，其他六个方法都调用了requests方法）

Requests对象和Response对象

request是代表HTTP请求信息的对象，response是代表HTTP响应信息的对象。

当浏览器发请求访问服务器中的某一个Servlet时，服务器将会调用Servlet中的service方法来处理请求。在调用service方法之前会创建出request和response对象。
其中request对象中封装了浏览器发送给服务器的请求信息（请求行、请求头、请求实体等），response对象中将会封装服务器要发送给浏览器的响应信息（状态行、响应头、响应实体），在service方法执行完后，服务器再将response中的数据取出，按照HTTP协议的格式发送给浏览器。
每次浏览器访问服务器，服务器在调用service方法处理请求之前都会创建request和response对象。（即，服务器每次处理请求都会创建request和response对象）
在请求处理完，响应结束时，服务器会销毁request和response对象。

Response对象属性

属性说明
r.status_code HTTP请求的返回状态，200表示连接成功，404表示失败
r.text HTTP相应内容的字符串形式，即url对应的页面内容
r.encoding 从HTTPheader中猜测的相应内容编码方式
r.apparent_encoding 从内容中分析出相应内容编码方式（备选编码方式）
r.content HTTP相应内容的二进制形式

Response编码

r.encoding:如果header中不存在charset，则认为编码为ISO-8859-1

属性	说明
r.status_code	HTTP请求的返回状态，200表示连接成功，404表示失败
r.text	HTTP相应内容的字符串形式，即url对应的页面内容
r.encoding	从HTTPheader中猜测的相应内容编码方式
r.apparent_encoding	从内容中分析出相应内容编码方式（备选编码方式）
r.content	HTTP相应内容的二进制形式

异常

异常	说明
requests.ConnectionError	网络连接错误异常，如DNS查询失败、拒绝连接等
requests.HTTPError	HTTP错误异常
requests.URLRequired	URL缺失异常
requests.TooManyRedirects	超过最大重定向次数，产生重定向异常
requests.ConnectionTimeout	连接远程服务器超时异常
requests.Timeout	请求URL超时，产生超时异常

异常方法：r.raise_for_status()判断返回的Response类型状态，如果不是200，产生HTTPError异常

通用代码框架

import requests
def getHTMLtext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果返回的状态不是200，将产生一个异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url="https://www.jd.com/robots.txt"
    print(getHTMLtext(url))

HTTP协议

HTTP协议(超文本传输协议HyperText Transfer Protocol)，它是基于TCP协议的应用层传输协议，简单来说就是客户端和服务端进行数据传输的一种规则。

注意：客户端与服务器的角色不是固定的，一端充当客户端，也可能在某次请求中充当服务器。这取决与请求的发起端。HTTP协议属于应用层，建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接，之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

HTTP 是一种无状态 (stateless) 协议（第一次请求和第二次请求之间并没有相关的关联）, HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理。这样做的目的是为了保持HTTP协议的简单性，从而能够快速处理大量的事务, 提高效率。

然而，在许多应用场景中，我们需要保持用户登录的状态或记录用户购物车中的商品。由于HTTP是无状态协议，所以必须引入一些技术来记录管理状态，例如Cookie。

采用URL作为定位网络资源的标识,URL格式：https://host[:port] [path]

host:合法的Internet主机域名或IP地址

port:端口号，缺省端口为80

path:请求资源路径

理解HTTPURL,URL是通过HTTP协议存取资源的Internet路径，一个URL对应一个数据资源。

方法：

方法	说明
GET	获取请求URL位置的资源
HEAD	请求获取由URL所标识的资源的响应消息报头，即资源的头部信息
POST	请求向URL位置的资源后附加新的数据
PUT	请求向URL位置存储一个资源，覆盖原URL位置的资源
PATCH	请求局部更新URL位置的资源，即改变该处资源的部分内容
DELETE	请求删除URL位置存储的资源