python网络爬虫实战教学——requests的使用(2)

本文介绍了如何使用Python的requests库进行POST请求,处理响应内容包括状态码、响应头和Cookie,以及如何设置和使用Cookie维持登录状态以爬取需要登录的页面。

在这里插入图片描述

专栏导读

✍ 作者简介:i阿极,优快云 数据分析领域优质创作者,专注于分享python数据分析领域知识。

本文录入于《python网络爬虫实战教学》,本专栏针对大学生、初级数据分析工程师精心打造,对python基础知识点逐一击破,不断学习,提升自我。
订阅后,可以阅读《python网络爬虫实战教学》中全部文章内容,包含python基础语法、数据结构和文件操作,科学计算,实现文件内容操作,实现数据可视化等等。
✍ 其他专栏:《数据分析案例》《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦!👍👍👍

1、POST请求

我们了解了最基本的GET请求,另外一种比较常见的请求方式是POST。

使用requests库实现POST请求同样非常简单。
实例如下:

import requests
data = {'name':'germey','age':'25'}
r=requests.post("https://www.baidu.com/",data)
print(r.text)

结果如下:
在这里插入图片描述

2、响应

请求发送后,自然会得到响应。在上面的实例中,我们使用text和content获取了响应的内容。此外,还有很多属性和方法可以用来获取其他信息,例如状态码、响应头、Cookie等。实例如下:

import requests
r=requests.get('https://ssr1.scrape.center/')
print(type(r.status_code),r.status_code)
print(type(r.headers),r.headers)
print(type(r.cookies),r.cookies)
print(type(r.url),r.url)
print(type(r.history),r.history)

运行结果如下:
在这里插入图片描述

这里通过status_code属性得到状态码、通过headers属性得到响应头、通过cookies属性得到Cookie、通过url属性得到URL、通过history属性得到请求历史。
可以看到,headers和cookies这两个属性得到的结果分别是CaseInsensitiveDict和Requests-CookieJar对象。

3、Cookie设置

前面我们使用urllib库处理过Cookie,写法比较复杂,有了requests库以后,获取和设置Cookie只需一步即可完成。
我们先用一个实例看一下获取Cookie的过程:

import requests
r=requests.get('https://www.baidu.com')
print(r.cookies)
for key,value in r.cookies.items():
    print(key+'m'+value)

运行结果如下:

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZm27315

这里我们首先调用cookies属性,成功得到Cookie,可以发现它属于RequestCookielar类型。然后调用items方法将Cookie转化为由元组组成的列表,遍历输出每一个Cookie条目的名称和值,实现对Cookie的遍历解析。

当然,我们也可以直接用Cookie来维持登录状态。
请求头中的Cookie内容,可以将这部分内容替换成你自己的Cookie,将其设置到请求头里面,然后发送请求,实例如下:

import requests
headers ={
"Cookie":"_octo=GH1,1.1849343058.1576602081;Ba=GA1,2.90460451.1576602111;Host-user session same site-nbOv62kHNJjp4NSKyQNYZ208waeqsngxFnFC88tnV7gTYOM_;device_id=a7ca73beOe8f1a81dle2ebb5349f9075;user_session-nbOv62kNjp4N5KyQNYZ20BwaeqsmNgxFnFC8BrnV7gTYQw_;logged_in-yes;dotcon user-Germey;tz-Asia%2FShanghal;has_recent_activity=1;gat=1;gh_sess-your_Session_info",
"User-Agent":'Mozilla/5.0(Macintosh;Intel Mac OS X i0_11_4) Applewebkit/537.36(KHTML,like Cecko)Chrome/53.0.2785.116 Safari/537.36',
}
r=requests.get('https://github.com/',headers-headers)
print(r.text)

可以发现,结果中包含了登录后才能包含的结果,其中有我的GitHub用户名信息,你如果尝试一下,同样可以得到你的用户信息。
得到这样类似的结果,说明用Cookie成功模拟了登录状态,这样就能爬取登录之后才能看到的页面了。

📢文章下方有交流学习区!一起学习进步!💪💪💪
📢首发优快云博客,创作不易,如果觉得文章不错,可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AOAIYI

你的鼓励是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值