爬虫入门-Request库

Requests库

简介

Requests 是⽤Python语⾔编写,基于urllib,采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求。(Python实现的简单易⽤的HTTP库)

安装

管理员运行“命令提示符”

命令:pip install requests

image-20230923234809572

测试

import requests
f=requests.get("http://www.baidu.com")#获得网页的相关内容
print(f.status_code)#返回网页的状态码,200为正常,安装成功

方法

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应HTTP的GET
requests.head()获取HTML网页头信息的方法,对应HTTP中的HEAD
requests.post()向HTML网页提交POST请求方法,对应HTTP中的POST
requests.put()向HTML网页提交PUT请求方法,对应HTTP中的PUT
requests.patch()向HTML网页提交局部修改请求,对应HTTP中的POST
requests.delete()向HTML网页提交删除请求,对应HTTP中的DELETE

由于安全问题,post、put、patch和delete方法基本很难实现,我们重点掌握get和head方法。

requests.request(method,url,**kwargs)

method:请求方式,对应get/put/post等7种方法(对应HTTP协议的7种请求功能)

r=requests.request('GET',url,**kwargs)
r=requests.request('HEAD',url,**kwargs)
r=requests.request('POST',url,**kwargs)
r=requests.request('PUT',url,**kwargs)
r=requests.request('PATCH',url,**kwargs)
r=requests.request('delete',url,**kwargs)
r=requests.request('OPTIONS',url,**kwargs)
#可以直接使用这些方法,或者使用基于封装request方法的其他对应方法

url:拟获取页面的url链接

**kwargs:13个控制访问参数

params:字典或字节序列,作为参数增加到url中

kv={'key1':'value1','key2':'value2'}
r=requests.request('GET','https://python123.io/ws',params=kv)
print(r.url)

data:字典、字节序列或文件对象,作为Request的内容

kv={'key1':'value1','key2':'value2'}
r=requests.request('POST','https://python123.io/ws',data=kv)
body='主体内容'
r=requests.request('POST','https://python123.io/ws',data=body)

json:JSON格式的数据,作为Request的内容

kv={'key1':'value1'}
r=requests.request('POST','https://python123.io/ws',json=kv)

headers:字典,HTTP定制头

hd={'user-agent':'Chrome/10'}
r=requests.request('POST','https://python123.io/ws',headers=hd)
#可以模拟任何我们想模拟的浏览器向服务器发起访问,这种方法就是headers字段头中实现

cookies:字典或CookieJar,Requst中的cookie

auth:元组,支持HTTP认证功能

files:字典,传输文件

fs={'file':open('data.xls','rb')}
r=requests.request('POST','https://python123.io/ws',headers=fs)

timeout:设定超时时间,以秒为单位

r=requests.request('GET','https://python123.io/ws',timeout=10)
#在timeout时间内,请求没有返回,产生timeout异常

proxies:字典,设定访问代理服务器,可以增加登录认证

pxs={'http':'https://user:pass@10.10.10.1:1234'
	 'https':'https://10.10.10.1.4321'}#可以有效隐藏用户爬取网页的源的IP地址信息,有效防止对爬虫的逆追踪
r=requests.request('GET','http://www.baidu.com',proxies=pxs)

allow_redirects:True/False,默认为True,重定向开关

stream:True/False,默认为True,获取内容立即下载开关

verify:True/False,默认为True,认证SSL证书开关

cert:本地SSL证书路径

(requests库中除了requests方法外,其他六个方法都调用了requests方法)

  • Requests对象和Response对象

    request是代表HTTP请求信息的对象,response是代表HTTP响应信息的对象。

    当浏览器发请求访问服务器中的某一个Servlet时,服务器将会调用Servlet中的service方法来处理请求。在调用service方法之前会创建出request和response对象。
    其中request对象中封装了浏览器发送给服务器的请求信息(请求行、请求头、请求实体等),response对象中将会封装服务器要发送给浏览器的响应信息(状态行、响应头、响应实体),在service方法执行完后,服务器再将response中的数据取出,按照HTTP协议的格式发送给浏览器。
    每次浏览器访问服务器,服务器在调用service方法处理请求之前都会创建request和response对象。(即,服务器每次处理请求都会创建request和response对象)
    在请求处理完,响应结束时,服务器会销毁request和response对象。

  • Response对象属性

    属性说明
    r.status_codeHTTP请求的返回状态,200表示连接成功,404表示失败
    r.textHTTP相应内容的字符串形式,即url对应的页面内容
    r.encoding从HTTPheader中猜测的相应内容编码方式
    r.apparent_encoding从内容中分析出相应内容编码方式(备选编码方式)
    r.contentHTTP相应内容的二进制形式
  • Response编码

    r.encoding:如果header中不存在charset,则认为编码为ISO-8859-1

异常

异常说明
requests.ConnectionError网络连接错误异常,如DNS查询失败、拒绝连接等
requests.HTTPErrorHTTP错误异常
requests.URLRequiredURL缺失异常
requests.TooManyRedirects超过最大重定向次数,产生重定向异常
requests.ConnectionTimeout连接远程服务器超时异常
requests.Timeout请求URL超时,产生超时异常

异常方法:r.raise_for_status()判断返回的Response类型状态,如果不是200,产生HTTPError异常

通用代码框架

import requests
def getHTMLtext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果返回的状态不是200,将产生一个异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url="https://www.jd.com/robots.txt"
    print(getHTMLtext(url))

HTTP协议

HTTP协议(超文本传输协议HyperText Transfer Protocol),它是基于TCP协议的应用层传输协议,简单来说就是客户端和服务端进行数据传输的一种规则。

注意:客户端与服务器的角色不是固定的,一端充当客户端,也可能在某次请求中充当服务器。这取决与请求的发起端。HTTP协议属于应用层,建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接,之后发送HTTP请求与接收HTTP响应都是通过访问Socket接口来调用TCP协议实现。

HTTP 是一种无状态 (stateless) 协议(第一次请求和第二次请求之间并没有相关的关联), HTTP协议本身不会对发送过的请求和相应的通信状态进行持久化处理。这样做的目的是为了保持HTTP协议的简单性,从而能够快速处理大量的事务, 提高效率。

然而,在许多应用场景中,我们需要保持用户登录的状态或记录用户购物车中的商品。由于HTTP是无状态协议,所以必须引入一些技术来记录管理状态,例如Cookie

采用URL作为定位网络资源的标识,URL格式:https://host[:port] [path]

host:合法的Internet主机域名或IP地址

port:端口号,缺省端口为80

path:请求资源路径

理解HTTPURL,URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

方法:

方法说明
GET获取请求URL位置的资源
HEAD请求获取由URL所标识的资源的响应消息报头,即资源的头部信息
POST请求向URL位置的资源后附加新的数据
PUT请求向URL位置存储一个资源,覆盖原URL位置的资源
PATCH请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE请求删除URL位置存储的资源
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值