requests发送post请求,你真的明白吗?

前言

在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有什么好说的,而发送POST请求,有很多朋友不是很清楚,主要是因为容易混淆POST提交的方式。今天在微信交流群里,就有朋友遇到了这种问题,特地讲解一下。

在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。具体的编码方式包括如下:

  • application/x-www-form-urlencoded:以form表单形式提交数据,最常见也是大家最熟悉的
  • application/json :以json串提交数据。
  • multipart/form-data:上传文件

下面使用requests来发送上述三种编码的POST请求。

1.提交Form表单

requests提交Form表单,一般存在于网站的登录,用来提交用户名和密码。以http://httpbin.org/post 为例,在requests中,以form表单形式发送post请求,只需要将请求的参数构造成一个字典,然后传给requests.post()的data参数即可。代码如下:

Python
url = 'http://httpbin.org/post' d = {'key1': 'value1', 'key2': 'value2'} r = requests.post(url, data=d) print r.text # 输出结果: { "args":{}, "data":"", "files":{}, "form":{"key1":"value1","key2":"value2"}, "headers":{"Accept":"*/*","Accept-Encoding":"gzip, deflate", "Connection":"close", "Content-Length":"23", "Content-Type":"application/x-www-form-urlencoded", "Host":"httpbin.org", "User-Agent":"<span class="wp_keywordlink"><a href="http://www.168seo.cn/python" title="python">python</a></span>-requests/2.12.3"}, "json":null, "origin":"113.140.11.122", "url":"http://httpbin.org/post"}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
url = 'http://httpbin.org/post'
d = { 'key1' : 'value1' , 'key2' : 'value2' }
r = requests . post ( url , data = d )
print r . text
 
# 输出结果:
{
"args" : { } ,
"data" : "" ,
"files" : { } ,
"form" : { "key1" : "value1" , "key2" : "value2" } ,
"headers" : { "Accept" : "*/*" , "Accept-Encoding" : "gzip, deflate" ,
"Connection" : "close" ,
"Content-Length" : "23" ,
"Content-Type" : "application/x-www-form-urlencoded" ,
"Host" : "httpbin.org" ,
"User-Agent" : "python-requests/2.12.3" } ,
"json" : null ,
"origin" : "113.140.11.122" ,
"url" : "http://httpbin.org/post" }

httpbin.org网站可以显示你提交请求的内容,大家注意一下输出的"Content-Type":"application/x-www-form-urlencoded",证明这是提交Form的方式。大家在登录一个网站时,可以观察一下Content-Type是什么。

2.提交json串

对于提交json串,主要是用于发送ajax请求中,动态加载数据。以拼多多网站为例,加载商品的方式为ajax,商品的内容在响应中。

下面把请求头和请求实体列举一下:

一些初学者根据请求头写爬虫,就会犯requests的使用错误。

错误写法
Python
import requests __author__ = 'qiye' __date__ = '2018/5/19 21:59' url = "http://jinbao.pinduoduo.com/network/api/common/goodsList" data ={"pageSize":60,"pageNumber":1,"withCoupon":0,"sortType":0} headers = { 'Content-Type':'application/json; charset=UTF-8', 'Host':'jinbao.pinduoduo.com', 'Origin':'http://jinbao.pinduoduo.com', 'Referer':'http://jinbao.pinduoduo.com/', 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36', 'Accept': 'application/json, text/javascript, */*; q=0.01', } r = requests.post(url=url,data =data,headers=headers) print(r.text)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import requests
 
__author__ = 'qiye'
__date__ = '2018/5/19 21:59'
 
url = "http://jinbao.pinduoduo.com/network/api/common/goodsList"
data = { "pageSize" : 60 , "pageNumber" : 1 , "withCoupon" : 0 , "sortType" : 0 }
headers = {
     'Content-Type' : 'application/json; charset=UTF-8' ,
     'Host' : 'jinbao.pinduoduo.com' ,
     'Origin' : 'http://jinbao.pinduoduo.com' ,
     'Referer' : 'http://jinbao.pinduoduo.com/' ,
     'User-Agent' : 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36' ,
     'Accept' : 'application/json, text/javascript, */*; q=0.01' ,
 
 
 
}
r = requests . post ( url = url , data = data , headers = headers )
print ( r . text )

 

打印的内容如下:
Python
{"success":false,"errorCode":4000000,"errorMsg":"System Error","result":null}
1
{ "success" : false , "errorCode" : 4000000 , "errorMsg" : "System Error" , "result" : null }

 

返回出错了,这时候百思不得其解,请求头我都保持一致了呀,'Content-Type':'application/json; charset=UTF-8'都加上了,为什么会出错呀? 答案在于,你的请求实体的格式错了,服务端无法解码。

正确写法1

正确代码是把data进行json编码,再发送。代码如下:

Python
r = requests.post(url=url,data =json.dumps(data),headers=headers)
1
r = requests . post ( url = url , data = json . dumps ( data ) , headers = headers )

 

这个时候再看一下打印内容,已经正确返回商品内容了。

Python
{"success":true,"errorCode":1000000,"errorMsg":null,"result":{"total":2271278,"goodsList":[{"goodsId":998422995,"goodsName":"【4液+1器】皎洁电热蚊香液 孕妇宝宝驱蚊儿童婴无味防蚊液体","goodsImageUrl":"http://t11img.yangkeduo.com/images/2018-04-12/0292b5e75053dfa748b9762d3f3e74ef.jpeg","soldQuantity":175,"minGroupPrice":24890,"categoryId":4,"categoryName":"母婴","hasCoupon":true,"couponMinOrderAmount":5000,"couponDiscount":5000,"couponTotalQuantity":5000,"couponRemainQuantity":3940,"couponStartTime":1526572800,"couponEndTime":1527782399,"promotionRate":280}, ...
1
2
{ "success" : true , "errorCode" : 1000000 , "errorMsg" : null , "result" : { "total" : 2271278 , "goodsList" : [ { "goodsId" : 998422995 , "goodsName" : "【4液+1器】皎洁电热蚊香液 孕妇宝宝驱蚊儿童婴无味防蚊液体" , "goodsImageUrl" : "http://t11img.yangkeduo.com/images/2018-04-12/0292b5e75053dfa748b9762d3f3e74ef.jpeg" , "soldQuantity" : 175 , "minGroupPrice" : 24890 , "categoryId" : 4 , "categoryName" : "母婴" , "hasCoupon" : true , "couponMinOrderAmount" : 5000 , "couponDiscount" : 5000 , "couponTotalQuantity" : 5000 , "couponRemainQuantity" : 3940 , "couponStartTime" : 1526572800 , "couponEndTime" : 1527782399 , "promotionRate" : 280 } ,
. . .

 

正确写法2

处理将data主动编码为json发送之外,requests还提供了一个json参数,自动使用json方式发送,而且在请求头中也不用显示声明'Content-Type':'application/json; charset=UTF-8'。完整代码如下:

Python
import requests __author__ = 'qiye' __date__ = '2018/5/19 21:59' url = "http://jinbao.pinduoduo.com/network/api/common/goodsList" data ={"pageSize":60,"pageNumber":1,"withCoupon":0,"sortType":0} headers = { 'Host':'jinbao.pinduoduo.com', 'Origin':'http://jinbao.pinduoduo.com', 'Referer':'http://jinbao.pinduoduo.com/', 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36', } r = requests.post(url=url,json =data,headers=headers) print(r.text)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import requests
 
__author__ = 'qiye'
__date__ = '2018/5/19 21:59'
 
url = "http://jinbao.pinduoduo.com/network/api/common/goodsList"
data = { "pageSize" : 60 , "pageNumber" : 1 , "withCoupon" : 0 , "sortType" : 0 }
headers = {
     'Host' : 'jinbao.pinduoduo.com' ,
     'Origin' : 'http://jinbao.pinduoduo.com' ,
     'Referer' : 'http://jinbao.pinduoduo.com/' ,
     'User-Agent' : 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36' ,
}
r = requests . post ( url = url , json = data , headers = headers )
print ( r . text )

转载 企业安全博客

3.上传文件

上传文件在爬虫中使用的很少,不过还是使用requests讲解一下使用方式。Content-Type类型为multipart/form-data,以multipart形式发送post请求,只需将一文件传给requests.post()的files参数即可。还是以http://httpbin.org/post 为例,代码如下:

 

Python
url = 'http://httpbin.org/post' files = {'file': open('upload.txt', 'rb')} r = requests.post(url, files=files) print(r.text)
1
2
3
4
url = 'http://httpbin.org/post'
files = { 'file' : open ( 'upload.txt' , 'rb' ) }
r = requests . post ( url , files = files )
print ( r . text )



  • zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值