猿人学 — 第1届第3题
-
翻页发现一共有两个请求
-
第一个请求:返回状态码为
202(服务器已经接收请求,但尚未处理),响应头中还有一个Set-Cookie

-
第二个请求:返回了我们想要的数据,携带的Payload中也只有一个表示页数的参数
m,不过携带的Cookie中有上一步返回的sessionid。因此猜想,若想获得页面中的数据,必须先发送第一个jssm的请求,获得返回的sessionid后再发送第二个请求

-
-
考虑到第一个请求返回的状态码为202,并且第二个请求建立在第一个请求基础上,因此采用
requests模块中的requests.session()会话对象进行请求- 尝试1:请求头中设置了
User-Agent,Referer,Origin,Cookie几个常见参数,发现请求返回数据不对 - 尝试2:按照Chrome中Headers,将所有请求头参数补充上,发现请求返回数据还是不对

- 尝试1:请求头中设置了
-
这就很奇怪了,第一步
sessionid也获取了,为什么还是不行呢?打开Fiddler,看一下翻页发送的请求的具体情况。发现在请求的原始数据中,请求头中的参数与Chrome中是一致的,唯一不一样的是各个参数的顺序,难道是服务器检测了请求头的顺序?

- 尝试3:按照Filler中
https//match.yuanrenxue.cn/api/match/3?page=3请求的原始数据重新排列请求头中的参数,还是发现请求返回数据不对 - 尝试4:按照Filler中
https//match.yuanrenxue.cn/jssm请求的原始数据重新排列请求头中的参数,终于获得了目标数据 - 尝试5:在尝试4成功的基础上,修改请求头中一些参数的顺序,发现有时可以获得目标数据有时则不能
- 尝试3:按照Filler中
-
猜测:服务器很可能是对请求头中某几个参数的相对位置进行了检测,仅为个人猜测,还请大佬们批评指正,不吝赐教。源码如下
import requests # 创建会话,请求头完全按照Fiddler抓包jssm请求原始数据中的情况排列 obj = requests.session() obj.headers = { '

最低0.47元/天 解锁文章
532

被折叠的 条评论
为什么被折叠?



