猿人学 — 第1届第3题(解题思路附源码)

猿人学 — 第1届第3题

  • 翻页发现一共有两个请求

    • 第一个请求:返回状态码为202(服务器已经接收请求,但尚未处理),响应头中还有一个Set-Cookie
      在这里插入图片描述

    • 第二个请求:返回了我们想要的数据,携带的Payload中也只有一个表示页数的参数m,不过携带的Cookie中有上一步返回的sessionid。因此猜想,若想获得页面中的数据,必须先发送第一个jssm的请求,获得返回的sessionid后再发送第二个请求
      在这里插入图片描述

  • 考虑到第一个请求返回的状态码为202,并且第二个请求建立在第一个请求基础上,因此采用requests模块中的requests.session()会话对象进行请求

    • 尝试1:请求头中设置了User-AgentRefererOriginCookie几个常见参数,发现请求返回数据不对
    • 尝试2:按照Chrome中Headers,将所有请求头参数补充上,发现请求返回数据还是不对
      在这里插入图片描述
  • 这就很奇怪了,第一步sessionid也获取了,为什么还是不行呢?打开Fiddler,看一下翻页发送的请求的具体情况。发现在请求的原始数据中,请求头中的参数与Chrome中是一致的,唯一不一样的是各个参数的顺序,难道是服务器检测了请求头的顺序?
    在这里插入图片描述

    • 尝试3:按照Filler中https//match.yuanrenxue.cn/api/match/3?page=3请求的原始数据重新排列请求头中的参数,还是发现请求返回数据不对
    • 尝试4:按照Filler中https//match.yuanrenxue.cn/jssm请求的原始数据重新排列请求头中的参数,终于获得了目标数据
    • 尝试5:在尝试4成功的基础上,修改请求头中一些参数的顺序,发现有时可以获得目标数据有时则不能
  • 猜测:服务器很可能是对请求头中某几个参数的相对位置进行了检测,仅为个人猜测,还请大佬们批评指正,不吝赐教。源码如下

    import requests
    # 创建会话,请求头完全按照Fiddler抓包jssm请求原始数据中的情况排列
    obj = requests.session()
    obj.headers = {
         
         
        '
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值