[2021.7]猿人学 | 爬虫攻防大赛 | 第一题

本文详细介绍了如何分析和解密一个网页的JS混淆代码,包括使用浏览器开发者工具抓包、分析数据来源和请求参数、理解加密函数、编写Python脚本模拟加密过程,最终实现对目标网站的爬虫攻防。内容涵盖JS混淆分析、MD5加密算法等技术。

[2021.7]猿人学 | 爬虫攻防大赛 | 第一题

看了网上的2020年的JS混淆教学,发现大多数只是思路可以用,也没有提供软件和工具,在这里,特意花了一天的时间去研究,只使用了一些在线工具以及pycharm,做做笔记整理操作流程。

网站链接:http://match.yuanrenxue.com/list

1.抓包分析

一进去,打开调试(F12),进入debugger界面,先禁用debugger如下操作,然后刷新即可:
在这里插入图片描述

2.分析数据来源

先要找到数据来源,不刷新页面的基础上刷新数据,大部分都是ajax请求,这里使用xhr抓到对应的数据源的请求包
在这里插入图片描述

3.分析请求数据参数

然后分析他对应的请求参数
在这里插入图片描述
网上的朋友们说下面这个功能是栈追踪,这里比较好理解。就是这个包经过了哪些处理,都有对应的记录。
在这里插入图片描述
这样我们先点击第一步
在这里插入图片描述
在这里插入图片描述
放入解混淆工具中解析
在这里插入图片描述
这里我们可以看到m字符串是通过oo0O0()函数 + window.f + ‘|’ +时间处理 构成的,接下来我们来找oo0O0()这个函数
在这里插入图片描述
搜索后,发现该函数是在1位置下最后一行JS代码中,我们将它提取出来,分析其结构
在这里插入图片描述
使用HTML美化代码工具分析,更直观
在这里插入图片描述
这里我们会发现,oo0O0()这个函数只是执行了eval,而函数本身返回空值(" "),接下来分析这条代码,atob函数的作用自行百度
在这里插入图片描述
在控制台打印atob(window[‘b’]),出现了一些代码拼接成的字符串,我们将字符串,有转义含义的 ’ \ ’ 删除 ,利用美化工具美化后,在pycharm中打开这些字符
在这里插入图片描述

4.分析加密代码

这是本章最关键的加密代码,只需要重用分析以下代码,缺什么就去分析什么,扣取对应的代码,复现加密即可。
发现window.f = hex_md5(mwqqppz),是通过很多函数加密的,最重要的就是这最后一条,接下来我们来寻找mwqqppz参数在这里插入图片描述
回到调用oo0O0()函数的部分

var _0x2268f9 = Date.parse(new Date()) + 100000000, _0x57feae = oo0O0(_0x2268f9.toString()) + window.f;
        const _0x5d83a3 = {};
                _0x5d83a3.page = window.page;
                          #
        _0x5d83a3.m = oo0O0(_0x2268f9.toString()) + window.f + '丨' + _0x2268f9 / 1000;

以及eval()那一条代码,分析传入的参数。

function oo0O0(mw){
    ·········
    ·········
	# 这里的mw,是上一条代码中的参数,即时间字符串【_0x2268f9.toString()】
	eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));
	return '';
}

在控制台中运行J(‘0x0’, ‘]dQW’) J(‘0x1’, ‘GTu!’)
在这里插入图片描述
代码即可替换为:

function oo0O0(mw){
    ·········
    ·········
	eval(atob(window['b'])["replace"]("mwqqppz","'1626861791000'"));
	return '';
}

在这里插入图片描述
通过以上分析,我们可以知道window.f = hex_md5(mwqqppz)中mwqqppz就是’1626861791000’(这里值不固定,会随着时间变化,这里只是一个举例,方便之后的测试)

接下来,我们只需要保留分析好的加密参数进行测试即可。分析重用的代码,进行测试,重用的加密模块的代码如下:

var hexcase = 0;
var chrsz = 16;

function hex_md5(a) {
    return binl2hex(core_md5(str2binl(a), a.length * chrsz))
}

function core_md5(p, k) {
    p[k >> 5] |= 128 << ((k) % 32);
    p[(((k + 64) >>> 9) << 4) + 14] = k;
    var o = 1732584193;
    var n = -271733879;
    var m = -1732584194;
    var l = 271733878;
    for (var g = 0; g < p.length; g += 16) {
        var j = o;
        var h = n;
        var f = m;
        var e = l;
        o = md5_ff(o, n, m, l, p[g + 0], 7, -680976936);
        l = md5_ff(l, o, n, m, p[g + 1], 12, -389564586);
        m = md5_ff(m, l, o, n, p[g + 2], 17, 606105819);
        n = md5_ff(n, m, l, o, p[g + 3], 22, -1044525330);
        o = md5_ff(o, n, m, l, p[g + 4], 7, -176418897);
        l = md5_ff(l, o, n, m, p[g + 5], 12, 1200080426);
        m = md5_ff(m, l, o, n, p[g + 6], 17, -1473231341);
        n = md5_ff(n, m, l, o, p[g + 7], 22, -45705983);
        o = md5_ff(o, n, m, l, p[g + 8], 7, 1770035416);
        l = md5_ff(l, o, n, m, p[g + 9], 12, -1958414417);
        m = md5_ff(m, l, o, n, p[g + 10], 17, -42063);
        n = md5_ff(n, m, l, o, p[g + 11], 22, -1990404162);
        o = md5_ff(o, n, m, l, p[g + 12], 7, 1804660682);
        l = md5_ff(l, o, n, m, p[g + 13], 12, -40341101);
        m = md5_ff(m, l, o, n, p[g + 14], 17, -1502002290);
        n = md5_ff(n, m, l, o, p[g + 15], 22, 1236535329);
        o = md5_gg(o, n, m, l, p[g + 1], 5, -165796510);
        l = md5_gg(l, o, n, m, p[g + 6], 9, -1069501632);
        m = md5_gg(m, l, o, n, p[g + 11], 14, 643717713);
        n = md5_gg(n, m, l, o, p[g + 0], 20, -373897302);
        o = md5_gg(o, n, m, l, p[g + 5], 5, -701558691);
        l = md5_gg(l, o, n, m, p[g + 10], 9, 38016083);
        m = md5_gg(m, l, o, n, p[g + 15], 14, -660478335);
        n = md5_gg(n, m, l, o, p[g + 4], 20, -405537848);
        o = md5_gg(o, n, m, l, p[g + 9], 5, 568446438);
        l = md5_gg(l, o, n, m, p[g + 14], 9, -1019803690);
        m = md5_gg(m, l, o, n, p[g + 3], 14, -187363961);
        n = md5_gg(n, m, l, o, p[g + 8], 20, 1163531501);
        o = md5_gg(o, n, m, l, p[g + 13], 5, -1444681467);
        l = md5_gg(l, o, n, m, p[g + 2], 9, -51403784);
        m = md5_gg(m, l, o, n, p[g + 7], 14, 1735328473);
        n = md5_gg(n, m, l, o, p[g + 12], 20, -1921207734);
        o = md5_hh(o, n, m, l, p[g + 5], 4, -378558);
        l = md5_hh(l, o, n, m, p[g + 8], 11, -2022574463);
        m = md5_hh(m, l, o, n, p[g + 11], 16, 1839030562);
        n = md5_hh(n, m, l, o, p[g + 14], 23, -35309556);
        o = md5_hh(o, n, m, l, p[g + 1], 4, -1530992060);
        l = md5_hh(l, o, n, m, p[g + 4], 11, 1272893353);
        m = md5_hh(m, l, o, n, p[g + 7], 16, -155497632);
        n = md5_hh(n, m, l, o, p[g + 10], 23, -1094730640);
        o = md5_hh(o, n, m, l, p[g + 13], 4, 681279174);
        l = md5_hh(l, o, n, m, p[g + 0], 11, -358537222);
        m = md5_hh(m, l, o, n, p[g + 3], 16, -722881979);
        n = md5_hh(n, m, l, o, p[g + 6], 23, 76029189);
        o = md5_hh(o, n, m, l, p[g + 9], 4, -640364487);
        l = md5_hh(l, o, n, m, p[g + 12], 11, -421815835);
        m = md5_hh(m, l, o, n, p[g + 15], 16, 530742520);
        n = md5_hh(n, m, l, o, p[g + 2], 23, -995338651);
        o = md5_ii(o, n, m, l, p[g + 0], 6, -198630844);
        l = md5_ii(l, o, n, m, p[g + 7], 10, 11261161415);
        m = md5_ii(m, l, o, n, p[g + 14], 15, -1416354905);
        n = md5_ii(n, m, l, o, p[g + 5], 21, -57434055);
        o = md5_ii(o, n, m, l, p[g + 12], 6, 1700485571);
        l = md5_ii(l, o, n, m, p[g + 3], 10, -1894446606);
        m = md5_ii(m, l, o, n, p[g + 10], 15, -1051523);
        n = md5_ii(n, m, l, o, p[g + 1], 21, -2054922799);
        o = md5_ii(o, n, m, l, p[g + 8], 6, 1873313359);
        l = md5_ii(l, o, n, m, p[g + 15], 10, -30611744);
        m = md5_ii(m, l, o, n, p[g + 6], 15, -1560198380);
        n = md5_ii(n, m, l, o, p[g + 13], 21, 1309151649);
        o = md5_ii(o, n, m, l, p[g + 4], 6, -145523070);
        l = md5_ii(l, o, n, m, p[g + 11], 10, -1120210379);
        m = md5_ii(m, l, o, n, p[g + 2], 15, 718787259);
        n = md5_ii(n, m, l, o, p[g + 9], 21, -343485551);
        o = safe_add(o, j);
        n = safe_add(n, h);
        m = safe_add(m, f);
        l = safe_add(l, e)
    }
    return Array(o, n, m, l)
}

function md5_cmn(h, e, d, c, g, f) {
    return safe_add(bit_rol(safe_add(safe_add(e, h), safe_add(c, f)), g), d)
}

function md5_ff(g, f, k, j, e, i, h) {
    return md5_cmn((f & k) | ((~f) & j), g, f, e, i, h)
}

function md5_gg(g, f, k, j, e, i, h) {
    return md5_cmn((f & j) | (k & (~j)), g, f, e, i, h)
}

function md5_hh(g, f, k, j, e, i, h) {
    return md5_cmn(f ^ k ^ j, g, f, e, i, h)
}

function md5_ii(g, f, k, j, e, i, h) {
    return md5_cmn(k ^ (f | (~j)), g, f, e, i, h)
}

function safe_add(a, d) {
    var c = (a & 65535) + (d & 65535);
    var b = (a >> 16) + (d >> 16) + (c >> 16);
    return (b << 16) | (c & 65535)
}

function bit_rol(a, b) {
    return (a << b) | (a >>> (32 - b))
}

function str2binl(d) {
    var c = Array();
    var a = (1 << chrsz) - 1;
    for (var b = 0; b < d.length * chrsz; b += chrsz) {
        c[b >> 5] |= (d.charCodeAt(b / chrsz) & a) << (b % 32)
    }
    return c
}

function binl2hex(c) {
    var b = hexcase ? "0123456789ABCDEF" : "0123456789abcdef";
    var d = "";
    for (var a = 0; a < c.length * 4; a++) {
        d += b.charAt((c[a >> 2] >> ((a % 4) * 8 + 4)) & 15) + b.charAt((c[a >> 2] >> ((a % 4) * 8)) & 15)
    }
    return d
}

# 这里函数为自己定义的,测试过程会稍作修改
function get_m_value() {
    var _0x2268f9 = Date["parse"](new Date()) + 100000000;
    var mwqqppz = _0x2268f9["toString"]();
  	var m = hex_md5(mwqqppz);
  	var m_value = m + '丨' + _0x2268f9 / 1000;
    return m_value;
};

测试如下:
复制后面的时间进行验证
注意:这个时间是经过 /1000 处理的(这里+100000000不用在意,因为加密和 ‘ | ’ 后面的参数都是在+100000000的基础上进行的)
在这里插入图片描述
我们这里将+10000000后的时间数据复制下来,并且乘上1000,即加3个0,
在这里插入图片描述
对比无误,JS逆向过程结束。

6.编写python脚本进行计算

import requests
import execjs
import time

def get_res(page_num,parm):
    url = 'http://match.yuanrenxue.com/api/match/1?page={}&m={}'.format(page_num,parm)
    headers = {
        'Host': 'match.yuanrenxue.com',
        'Referer': 'http://match.yuanrenxue.com/match/1',
        'User-Agent': 'yuanrenxue.project',
        'X-Requested-With': 'XMLHttpRequest',
        'Cookie': 'vaptchaNetway=cn; Hm_lvt_0362c7a08a9a04ccf3a8463c590e1e2f=1626687082; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1626673910,1626679540,1626680120,1626742340; qpfccr=true; no-alert3=true; tk=9135939486690069026; sessionid=xj6esdoh0te73wh7rm7qhxnv1qaqn6ik; Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1626614961,1626673914,1626742349; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1626742892; m=5adb2031118d0bf6936dacb2cbda5e61|1626742896000; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1626749427'
    }
    response = requests.get(url=url,headers=headers)
    return response.json()

def calculate_m_value():
    with open('1.js',mode='r',encoding='utf-8') as f:
        JsData = f.read()
    m_value = execjs.compile(JsData).call('get_m_value')
    m_value_process = m_value.replace("丨","%E4%B8%A8")
    return m_value_process

if __name__ == '__main__':
    sum_ = 0
    for page_num in range(1,6):
        print(page_num)
        time.sleep(1)
        m_value = calculate_m_value()
        res = get_res(page_num,m_value)
        for i in res['data']:
            sum_ +=i['value']
    print(sum_/50)

提交结果:
在这里插入图片描述

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lijiamingccc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值