前言
在Python爬虫中,使用requests发送请求,访问指定网站,是常见的做法。一般是发送GET请求或者POST请求,对于GET请求没有什么好说的,而发送POST请求,有很多朋友不是很清楚,主要是因为容易混淆POST提交的方式。今天在微信交流群里,就有朋友遇到了这种问题,特地讲解一下。
在HTTP协议中,post提交的数据必须放在消息主体中,但是协议中并没有规定必须使用什么编码方式,从而导致了提交方式的不同。服务端根据请求头中的Content-Type字段来获知请求中的消息主体是用何种方式进行编码,再对消息主体进行解析。具体的编码方式包括如下:
- application/x-www-form-urlencoded:以form表单形式提交数据,最常见也是大家最熟悉的
- application/json :以json串提交数据。
- multipart/form-data:上传文件
下面使用requests来发送上述三种编码的POST请求。
1.提交Form表单
requests提交Form表单,一般存在于网站的登录,用来提交用户名和密码。以http://httpbin.org/post 为例,在requests中,以form表单形式发送post请求,只需要将请求的参数构造成一个字典,然后传给requests.post()的data参数即可。代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
url
=
'http://httpbin.org/post'
d
=
{
'key1'
:
'value1'
,
'key2'
:
'value2'
}
r
=
requests
.
post
(
url
,
data
=
d
)
print
r
.
text
# 输出结果:
{
"args"
:
{
}
,
"data"
:
""
,
"files"
:
{
}
,
"form"
:
{
"key1"
:
"value1"
,
"key2"
:
"value2"
}
,
"headers"
:
{
"Accept"
:
"*/*"
,
"Accept-Encoding"
:
"gzip, deflate"
,
"Connection"
:
"close"
,
"Content-Length"
:
"23"
,
"Content-Type"
:
"application/x-www-form-urlencoded"
,
"Host"
:
"httpbin.org"
,
"User-Agent"
:
"python-requests/2.12.3"
}
,
"json"
:
null
,
"origin"
:
"113.140.11.122"
,
"url"
:
"http://httpbin.org/post"
}
|
httpbin.org网站可以显示你提交请求的内容,大家注意一下输出的"Content-Type":"application/x-www-form-urlencoded
",证明这是提交Form的方式。大家在登录一个网站时,可以观察一下Content-Type是什么。
2.提交json串
对于提交json串,主要是用于发送ajax请求中,动态加载数据。以拼多多网站为例,加载商品的方式为ajax,商品的内容在响应中。
下面把请求头和请求实体列举一下:
一些初学者根据请求头写爬虫,就会犯requests的使用错误。
错误写法
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
import
requests
__author__
=
'qiye'
__date__
=
'2018/5/19 21:59'
url
=
"http://jinbao.pinduoduo.com/network/api/common/goodsList"
data
=
{
"pageSize"
:
60
,
"pageNumber"
:
1
,
"withCoupon"
:
0
,
"sortType"
:
0
}
headers
=
{
'Content-Type'
:
'application/json; charset=UTF-8'
,
'Host'
:
'jinbao.pinduoduo.com'
,
'Origin'
:
'http://jinbao.pinduoduo.com'
,
'Referer'
:
'http://jinbao.pinduoduo.com/'
,
'User-Agent'
:
'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36'
,
'Accept'
:
'application/json, text/javascript, */*; q=0.01'
,
}
r
=
requests
.
post
(
url
=
url
,
data
=
data
,
headers
=
headers
)
print
(
r
.
text
)
|
打印的内容如下:
1
|
{
"success"
:
false
,
"errorCode"
:
4000000
,
"errorMsg"
:
"System Error"
,
"result"
:
null
}
|
返回出错了,这时候百思不得其解,请求头我都保持一致了呀,'Content-Type':'application/json; charset=UTF-8'都加上了,为什么会出错呀? 答案在于,你的请求实体的格式错了,服务端无法解码。
正确写法1
正确代码是把data进行json编码,再发送。代码如下:
1
|
r
=
requests
.
post
(
url
=
url
,
data
=
json
.
dumps
(
data
)
,
headers
=
headers
)
|
这个时候再看一下打印内容,已经正确返回商品内容了。
1
2
|
{
"success"
:
true
,
"errorCode"
:
1000000
,
"errorMsg"
:
null
,
"result"
:
{
"total"
:
2271278
,
"goodsList"
:
[
{
"goodsId"
:
998422995
,
"goodsName"
:
"【4液+1器】皎洁电热蚊香液 孕妇宝宝驱蚊儿童婴无味防蚊液体"
,
"goodsImageUrl"
:
"http://t11img.yangkeduo.com/images/2018-04-12/0292b5e75053dfa748b9762d3f3e74ef.jpeg"
,
"soldQuantity"
:
175
,
"minGroupPrice"
:
24890
,
"categoryId"
:
4
,
"categoryName"
:
"母婴"
,
"hasCoupon"
:
true
,
"couponMinOrderAmount"
:
5000
,
"couponDiscount"
:
5000
,
"couponTotalQuantity"
:
5000
,
"couponRemainQuantity"
:
3940
,
"couponStartTime"
:
1526572800
,
"couponEndTime"
:
1527782399
,
"promotionRate"
:
280
}
,
.
.
.
|
正确写法2
处理将data主动编码为json发送之外,requests还提供了一个json参数,自动使用json方式发送,而且在请求头中也不用显示声明'Content-Type':'application/json; charset=UTF-8'。完整代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
import
requests
__author__
=
'qiye'
__date__
=
'2018/5/19 21:59'
url
=
"http://jinbao.pinduoduo.com/network/api/common/goodsList"
data
=
{
"pageSize"
:
60
,
"pageNumber"
:
1
,
"withCoupon"
:
0
,
"sortType"
:
0
}
headers
=
{
'Host'
:
'jinbao.pinduoduo.com'
,
'Origin'
:
'http://jinbao.pinduoduo.com'
,
'Referer'
:
'http://jinbao.pinduoduo.com/'
,
'User-Agent'
:
'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Mobile Safari/537.36'
,
}
r
=
requests
.
post
(
url
=
url
,
json
=
data
,
headers
=
headers
)
print
(
r
.
text
)
|
转载 企业安全博客
3.上传文件
上传文件在爬虫中使用的很少,不过还是使用requests讲解一下使用方式。Content-Type类型为multipart/form-data,以multipart形式发送post请求,只需将一文件传给requests.post()的files参数即可。还是以http://httpbin.org/post 为例,代码如下:
1
2
3
4
|
url
=
'http://httpbin.org/post'
files
=
{
'file'
:
open
(
'upload.txt'
,
'rb'
)
}
r
=
requests
.
post
(
url
,
files
=
files
)
print
(
r
.
text
)
|