猿人学 — 第1届第3题（解题思路附源码）

最新推荐文章于 2024-10-15 21:43:55 发布

原创

最新推荐文章于 2024-10-15 21:43:55 发布 · 1.1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#网络爬虫 #js逆向 #python #猿人学

猿人学 — 第1届第3题

翻页发现一共有两个请求
- 第一个请求：返回状态码为202（服务器已经接收请求，但尚未处理），响应头中还有一个Set-Cookie
- 第二个请求：返回了我们想要的数据，携带的Payload中也只有一个表示页数的参数m，不过携带的Cookie中有上一步返回的sessionid。因此猜想，若想获得页面中的数据，必须先发送第一个jssm的请求，获得返回的sessionid后再发送第二个请求
考虑到第一个请求返回的状态码为202，并且第二个请求建立在第一个请求基础上，因此采用requests模块中的requests.session()会话对象进行请求
- 尝试1：请求头中设置了User-Agent，Referer，Origin，Cookie几个常见参数，发现请求返回数据不对
- 尝试2：按照Chrome中Headers，将所有请求头参数补充上，发现请求返回数据还是不对
这就很奇怪了，第一步sessionid也获取了，为什么还是不行呢？打开Fiddler，看一下翻页发送的请求的具体情况。发现在请求的原始数据中，请求头中的参数与Chrome中是一致的，唯一不一样的是各个参数的顺序，难道是服务器检测了请求头的顺序？
- 尝试3：按照Filler中https//match.yuanrenxue.cn/api/match/3?page=3请求的原始数据重新排列请求头中的参数，还是发现请求返回数据不对
- 尝试4：按照Filler中https//match.yuanrenxue.cn/jssm请求的原始数据重新排列请求头中的参数，终于获得了目标数据
- 尝试5：在尝试4成功的基础上，修改请求头中一些参数的顺序，发现有时可以获得目标数据有时则不能

猜测：服务器很可能是对请求头中某几个参数的相对位置进行了检测，仅为个人猜测，还请大佬们批评指正，不吝赐教。源码如下

import requests
# 创建会话，请求头完全按照Fiddler抓包jssm请求原始数据中的情况排列
obj = requests.session()
obj.headers = {
     
     
    '

最低0.47元/天解锁文章