[2021.7]猿人学 | 爬虫攻防大赛 | 第一题
看了网上的2020年的JS混淆教学,发现大多数只是思路可以用,也没有提供软件和工具,在这里,特意花了一天的时间去研究,只使用了一些在线工具以及pycharm,做做笔记整理操作流程。
网站链接:http://match.yuanrenxue.com/list
1.抓包分析
一进去,打开调试(F12),进入debugger界面,先禁用debugger如下操作,然后刷新即可:

2.分析数据来源
先要找到数据来源,不刷新页面的基础上刷新数据,大部分都是ajax请求,这里使用xhr抓到对应的数据源的请求包

3.分析请求数据参数
然后分析他对应的请求参数

网上的朋友们说下面这个功能是栈追踪,这里比较好理解。就是这个包经过了哪些处理,都有对应的记录。

这样我们先点击第一步


放入解混淆工具中解析

这里我们可以看到m字符串是通过oo0O0()函数 + window.f + ‘|’ +时间处理 构成的,接下来我们来找oo0O0()这个函数

搜索后,发现该函数是在1位置下最后一行JS代码中,我们将它提取出来,分析其结构

使用HTML美化代码工具分析,更直观

这里我们会发现,oo0O0()这个函数只是执行了eval,而函数本身返回空值(" "),接下来分析这条代码,atob函数的作用自行百度

在控制台打印atob(window[‘b’]),出现了一些代码拼接成的字符串,我们将字符串,有转义含义的 ’ \ ’ 删除 ,利用美化工具美化后,在pycharm中打开这些字符

4.分析加密代码
这是本章最关键的加密代码,只需要重用分析以下代码,缺什么就去分析什么,扣取对应的代码,复现加密即可。
发现window.f = hex_md5(mwqqppz),是通过很多函数加密的,最重要的就是这最后一条,接下来我们来寻找mwqqppz参数
回到调用oo0O0()函数的部分
var _0x2268f9 = Date.parse(new Date()) + 100000000, _0x57feae = oo0O0(_0x2268f9.toString()) + window.f;
const _0x5d83a3 = {};
_0x5d83a3.page = window.page;
#
_0x5d83a3.m = oo0O0(_0x2268f9.toString()) + window.f + '丨' + _0x2268f9 / 1000;
以及eval()那一条代码,分析传入的参数。
function oo0O0(mw){
·········
·········
# 这里的mw,是上一条代码中的参数,即时间字符串【_0x2268f9.toString()】
eval(atob(window['b'])[J('0x0', ']dQW')](J('0x1', 'GTu!'), '\x27' + mw + '\x27'));
return '';
}
在控制台中运行J(‘0x0’, ‘]dQW’) J(‘0x1’, ‘GTu!’)

代码即可替换为:
function oo0O0(mw){
·········
·········
eval(atob(window['b'])["replace"]("mwqqppz","'1626861791000'"));
return '';
}

通过以上分析,我们可以知道window.f = hex_md5(mwqqppz)中mwqqppz就是’1626861791000’(这里值不固定,会随着时间变化,这里只是一个举例,方便之后的测试)
接下来,我们只需要保留分析好的加密参数进行测试即可。分析重用的代码,进行测试,重用的加密模块的代码如下:
var hexcase = 0;
var chrsz = 16;
function hex_md5(a) {
return binl2hex(core_md5(str2binl(a), a.length * chrsz))
}
function core_md5(p, k) {
p[k >> 5] |= 128 << ((k) % 32);
p[(((k + 64) >>> 9) << 4) + 14] = k;
var o = 1732584193;
var n = -271733879;
var m = -1732584194;
var l = 271733878;
for (var g = 0; g < p.length; g += 16) {
var j = o;
var h = n;
var f = m;
var e = l;
o = md5_ff(o, n, m, l, p[g + 0], 7, -680976936);
l = md5_ff(l, o, n, m, p[g + 1], 12, -389564586);
m = md5_ff(m, l, o, n, p[g + 2], 17, 606105819);
n = md5_ff(n, m, l, o, p[g + 3], 22, -1044525330);
o = md5_ff(o, n, m, l, p[g + 4], 7, -176418897);
l = md5_ff(l, o, n, m, p[g + 5], 12, 1200080426);
m = md5_ff(m, l, o, n, p[g + 6], 17, -1473231341);
n = md5_ff(n, m, l, o, p[g + 7], 22, -45705983);
o = md5_ff(o, n, m, l, p[g + 8], 7, 1770035416);
l = md5_ff(l, o, n, m, p[g + 9], 12, -1958414417);
m = md5_ff(m, l, o, n, p[g + 10], 17, -42063);
n = md5_ff(n, m, l, o, p[g + 11], 22, -1990404162);
o = md5_ff(o, n, m, l, p[g + 12], 7, 1804660682);
l = md5_ff(l, o, n, m, p[g + 13], 12, -40341101);
m = md5_ff(m, l, o, n, p[g + 14], 17, -1502002290);
n = md5_ff(n, m, l, o, p[g + 15], 22, 1236535329);
o = md5_gg(o, n, m, l, p[g + 1], 5, -165796510);
l = md5_gg(l, o, n, m, p[g + 6], 9, -1069501632);
m = md5_gg(m, l, o, n, p[g + 11], 14, 643717713);
n = md5_gg(n, m, l, o, p[g + 0], 20, -373897302);
o = md5_gg(o, n, m, l, p[g + 5], 5, -701558691);
l = md5_gg(l, o, n, m, p[g + 10], 9, 38016083);
m = md5_gg(m, l, o, n, p[g + 15], 14, -660478335);
n = md5_gg(n, m, l, o, p[g + 4], 20, -405537848);
o = md5_gg(o, n, m, l, p[g + 9], 5, 568446438);
l = md5_gg(l, o, n, m, p[g + 14], 9, -1019803690);
m = md5_gg(m, l, o, n, p[g + 3], 14, -187363961);
n = md5_gg(n, m, l, o, p[g + 8], 20, 1163531501);
o = md5_gg(o, n, m, l, p[g + 13], 5, -1444681467);
l = md5_gg(l, o, n, m, p[g + 2], 9, -51403784);
m = md5_gg(m, l, o, n, p[g + 7], 14, 1735328473);
n = md5_gg(n, m, l, o, p[g + 12], 20, -1921207734);
o = md5_hh(o, n, m, l, p[g + 5], 4, -378558);
l = md5_hh(l, o, n, m, p[g + 8], 11, -2022574463);
m = md5_hh(m, l, o, n, p[g + 11], 16, 1839030562);
n = md5_hh(n, m, l, o, p[g + 14], 23, -35309556);
o = md5_hh(o, n, m, l, p[g + 1], 4, -1530992060);
l = md5_hh(l, o, n, m, p[g + 4], 11, 1272893353);
m = md5_hh(m, l, o, n, p[g + 7], 16, -155497632);
n = md5_hh(n, m, l, o, p[g + 10], 23, -1094730640);
o = md5_hh(o, n, m, l, p[g + 13], 4, 681279174);
l = md5_hh(l, o, n, m, p[g + 0], 11, -358537222);
m = md5_hh(m, l, o, n, p[g + 3], 16, -722881979);
n = md5_hh(n, m, l, o, p[g + 6], 23, 76029189);
o = md5_hh(o, n, m, l, p[g + 9], 4, -640364487);
l = md5_hh(l, o, n, m, p[g + 12], 11, -421815835);
m = md5_hh(m, l, o, n, p[g + 15], 16, 530742520);
n = md5_hh(n, m, l, o, p[g + 2], 23, -995338651);
o = md5_ii(o, n, m, l, p[g + 0], 6, -198630844);
l = md5_ii(l, o, n, m, p[g + 7], 10, 11261161415);
m = md5_ii(m, l, o, n, p[g + 14], 15, -1416354905);
n = md5_ii(n, m, l, o, p[g + 5], 21, -57434055);
o = md5_ii(o, n, m, l, p[g + 12], 6, 1700485571);
l = md5_ii(l, o, n, m, p[g + 3], 10, -1894446606);
m = md5_ii(m, l, o, n, p[g + 10], 15, -1051523);
n = md5_ii(n, m, l, o, p[g + 1], 21, -2054922799);
o = md5_ii(o, n, m, l, p[g + 8], 6, 1873313359);
l = md5_ii(l, o, n, m, p[g + 15], 10, -30611744);
m = md5_ii(m, l, o, n, p[g + 6], 15, -1560198380);
n = md5_ii(n, m, l, o, p[g + 13], 21, 1309151649);
o = md5_ii(o, n, m, l, p[g + 4], 6, -145523070);
l = md5_ii(l, o, n, m, p[g + 11], 10, -1120210379);
m = md5_ii(m, l, o, n, p[g + 2], 15, 718787259);
n = md5_ii(n, m, l, o, p[g + 9], 21, -343485551);
o = safe_add(o, j);
n = safe_add(n, h);
m = safe_add(m, f);
l = safe_add(l, e)
}
return Array(o, n, m, l)
}
function md5_cmn(h, e, d, c, g, f) {
return safe_add(bit_rol(safe_add(safe_add(e, h), safe_add(c, f)), g), d)
}
function md5_ff(g, f, k, j, e, i, h) {
return md5_cmn((f & k) | ((~f) & j), g, f, e, i, h)
}
function md5_gg(g, f, k, j, e, i, h) {
return md5_cmn((f & j) | (k & (~j)), g, f, e, i, h)
}
function md5_hh(g, f, k, j, e, i, h) {
return md5_cmn(f ^ k ^ j, g, f, e, i, h)
}
function md5_ii(g, f, k, j, e, i, h) {
return md5_cmn(k ^ (f | (~j)), g, f, e, i, h)
}
function safe_add(a, d) {
var c = (a & 65535) + (d & 65535);
var b = (a >> 16) + (d >> 16) + (c >> 16);
return (b << 16) | (c & 65535)
}
function bit_rol(a, b) {
return (a << b) | (a >>> (32 - b))
}
function str2binl(d) {
var c = Array();
var a = (1 << chrsz) - 1;
for (var b = 0; b < d.length * chrsz; b += chrsz) {
c[b >> 5] |= (d.charCodeAt(b / chrsz) & a) << (b % 32)
}
return c
}
function binl2hex(c) {
var b = hexcase ? "0123456789ABCDEF" : "0123456789abcdef";
var d = "";
for (var a = 0; a < c.length * 4; a++) {
d += b.charAt((c[a >> 2] >> ((a % 4) * 8 + 4)) & 15) + b.charAt((c[a >> 2] >> ((a % 4) * 8)) & 15)
}
return d
}
# 这里函数为自己定义的,测试过程会稍作修改
function get_m_value() {
var _0x2268f9 = Date["parse"](new Date()) + 100000000;
var mwqqppz = _0x2268f9["toString"]();
var m = hex_md5(mwqqppz);
var m_value = m + '丨' + _0x2268f9 / 1000;
return m_value;
};
测试如下:

注意:这个时间是经过 /1000 处理的(这里+100000000不用在意,因为加密和 ‘ | ’ 后面的参数都是在+100000000的基础上进行的)

我们这里将+10000000后的时间数据复制下来,并且乘上1000,即加3个0,

对比无误,JS逆向过程结束。
6.编写python脚本进行计算
import requests
import execjs
import time
def get_res(page_num,parm):
url = 'http://match.yuanrenxue.com/api/match/1?page={}&m={}'.format(page_num,parm)
headers = {
'Host': 'match.yuanrenxue.com',
'Referer': 'http://match.yuanrenxue.com/match/1',
'User-Agent': 'yuanrenxue.project',
'X-Requested-With': 'XMLHttpRequest',
'Cookie': 'vaptchaNetway=cn; Hm_lvt_0362c7a08a9a04ccf3a8463c590e1e2f=1626687082; Hm_lvt_c99546cf032aaa5a679230de9a95c7db=1626673910,1626679540,1626680120,1626742340; qpfccr=true; no-alert3=true; tk=9135939486690069026; sessionid=xj6esdoh0te73wh7rm7qhxnv1qaqn6ik; Hm_lvt_9bcbda9cbf86757998a2339a0437208e=1626614961,1626673914,1626742349; Hm_lpvt_9bcbda9cbf86757998a2339a0437208e=1626742892; m=5adb2031118d0bf6936dacb2cbda5e61|1626742896000; Hm_lpvt_c99546cf032aaa5a679230de9a95c7db=1626749427'
}
response = requests.get(url=url,headers=headers)
return response.json()
def calculate_m_value():
with open('1.js',mode='r',encoding='utf-8') as f:
JsData = f.read()
m_value = execjs.compile(JsData).call('get_m_value')
m_value_process = m_value.replace("丨","%E4%B8%A8")
return m_value_process
if __name__ == '__main__':
sum_ = 0
for page_num in range(1,6):
print(page_num)
time.sleep(1)
m_value = calculate_m_value()
res = get_res(page_num,m_value)
for i in res['data']:
sum_ +=i['value']
print(sum_/50)
提交结果:

本文详细介绍了如何分析和解密一个网页的JS混淆代码,包括使用浏览器开发者工具抓包、分析数据来源和请求参数、理解加密函数、编写Python脚本模拟加密过程,最终实现对目标网站的爬虫攻防。内容涵盖JS混淆分析、MD5加密算法等技术。
209





