python网络爬虫实战教学——requests的使用（2）

最新推荐文章于 2025-01-20 23:52:13 发布

原创最新推荐文章于 2025-01-20 23:52:13 发布 · 8.3k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #信息可视化 #开发语言

python网络爬虫实战教学专栏收录该内容

8 篇文章

订阅专栏

本文介绍了如何使用Python的requests库进行POST请求，处理响应内容包括状态码、响应头和Cookie，以及如何设置和使用Cookie维持登录状态以爬取需要登录的页面。

在这里插入图片描述

文章目录

专栏导读
1、POST请求
2、响应
3、Cookie设置

专栏导读

✍ 作者简介：i阿极，优快云数据分析领域优质创作者，专注于分享python数据分析领域知识。

✍ 本文录入于《python网络爬虫实战教学》，本专栏针对大学生、初级数据分析工程师精心打造，对python基础知识点逐一击破，不断学习，提升自我。
✍ 订阅后，可以阅读《python网络爬虫实战教学》中全部文章内容，包含python基础语法、数据结构和文件操作，科学计算，实现文件内容操作，实现数据可视化等等。
✍ 其他专栏：《数据分析案例》，《机器学习案例》

😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍

1、POST请求

我们了解了最基本的GET请求，另外一种比较常见的请求方式是POST。

使用requests库实现POST请求同样非常简单。
实例如下：

import requests
data = {'name':'germey','age':'25'}
r=requests.post("https://www.baidu.com/",data)
print(r.text)

结果如下：
在这里插入图片描述

2、响应

请求发送后，自然会得到响应。在上面的实例中，我们使用text和content获取了响应的内容。此外，还有很多属性和方法可以用来获取其他信息，例如状态码、响应头、Cookie等。实例如下：

import requests
r=requests.get('https://ssr1.scrape.center/')
print(type(r.status_code),r.status_code)
print(type(r.headers),r.headers)
print(type(r.cookies),r.cookies)
print(type(r.url),r.url)
print(type(r.history),r.history)

运行结果如下：
在这里插入图片描述

这里通过status_code属性得到状态码、通过headers属性得到响应头、通过cookies属性得到Cookie、通过url属性得到URL、通过history属性得到请求历史。
可以看到，headers和cookies这两个属性得到的结果分别是CaseInsensitiveDict和Requests-CookieJar对象。

3、Cookie设置

前面我们使用urllib库处理过Cookie,写法比较复杂，有了requests库以后，获取和设置Cookie只需一步即可完成。
我们先用一个实例看一下获取Cookie的过程：

import requests
r=requests.get('https://www.baidu.com')
print(r.cookies)
for key,value in r.cookies.items():
    print(key+'m'+value)

运行结果如下：

<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZm27315

这里我们首先调用cookies属性，成功得到Cookie,可以发现它属于RequestCookielar类型。然后调用items方法将Cookie转化为由元组组成的列表，遍历输出每一个Cookie条目的名称和值，实现对Cookie的遍历解析。

当然，我们也可以直接用Cookie来维持登录状态。
请求头中的Cookie内容，可以将这部分内容替换成你自己的Cookie,将其设置到请求头里面，然后发送请求，实例如下：

import requests
headers ={
"Cookie":"_octo=GH1,1.1849343058.1576602081;Ba=GA1,2.90460451.1576602111;Host-user session same site-nbOv62kHNJjp4NSKyQNYZ208waeqsngxFnFC88tnV7gTYOM_;device_id=a7ca73beOe8f1a81dle2ebb5349f9075;user_session-nbOv62kNjp4N5KyQNYZ20BwaeqsmNgxFnFC8BrnV7gTYQw_;logged_in-yes;dotcon user-Germey;tz-Asia%2FShanghal;has_recent_activity=1;gat=1;gh_sess-your_Session_info",
"User-Agent":'Mozilla/5.0(Macintosh;Intel Mac OS X i0_11_4) Applewebkit/537.36(KHTML,like Cecko)Chrome/53.0.2785.116 Safari/537.36',
}
r=requests.get('https://github.com/',headers-headers)
print(r.text)