JS逆向实战10——某集团RSA长加密

由于本网站较为特殊 目标网站加密与其他稍有不同

目标网站:68747470733a2f2f65632e6d696e6d6574616c732e636f6d2e636e2f6f70656e2f686f6d652f70757263686173652d696e666f2f3f746162496e6465783d31

需求

爬取所有的列表页 标题 时间 url 以及详情页内容

分析

在爬取列表页时 会发现 有两个请求,说明有两个请求是一起发送的。

第一个请求


可以发现这个请求 直接发起post 请求就可以拿到数据

第二个请求


可以发现请求体是一串代码 估计和第一个参数有关

寻找参数

这个网站是几个月前爬的,目前很多JS以及混淆了,所以本篇文章只记录自己的爬取,不提供代码了
这里提供网站混淆前的JS代码

function hex2b64(d) {
    let b;
    let e;
    let a = '';
    const b64map = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';
    const b64pad = '=';
    
    for (b = 0; b + 3 <= d.length; b += 3) {
      e = parseInt(d.substring(b, b + 3), 16);
      a += b64map.charAt(e >> 6) + b64map.charAt(e & 63);
    }
    
    if (b + 1 === d.length) {
      e = parseInt(d.substring(b, b + 1), 16);
      a += b64map.charAt(e << 2);
    } else {
      if (b + 2 === d.length) {
        e = parseInt(d.substring(b, b + 2), 16);
        a += b64map.charAt(e >> 2) + b64map.charAt((e & 3) << 4);
      }
    }
    
    while ((a.length & 3) > 0) {
      a += b64pad;
    }
    
    return a;
  }
  
  //重新定义分段加密方法(加密参数过长)
  JSEncrypt.prototype.encryptLong = function (string) {
    const k = this.getKey(),
          maxLength = ((k.n.bitLength() + 7) >> 3) - 11;
    
    try {
      let lt = '',
          ct = '';
      
      if (string.length > maxLength) {
        lt = string.match(/.{1,50}/g);
        lt.forEach(entry => {
          const t1 = k.encrypt(entry);
          ct += t1;
        });
        return hex2b64(ct);
      }
      const t = k.encrypt(string),
            y = hex2b64(t);
      return y;
    } catch (ex) {
      return ex;
    }
  };
  
  
  //导出加密方法
  function getDataByEncrypted(requestData = {}) {
    const rsaInstance = new JSEncrypt();
    
    rsaInstance.setPublicKey("");
    const newRequestData = {
      ...requestData,
      sign: md5(JSON.stringify(requestData)),
      timeStamp: +new Date(),
    };
    const encryptionData = JSEncrypt.prototype.encryptLong(JSON.stringify(newRequestData));
    return encryptionData;
  }

根据代码可知 这串代码是通过JS来进行的加密
公钥就是上文所指的第一个请求请求到的结果
私钥就是第二个请求反加密的值 也就是newRequestData

知道了公钥和私钥,我们可以自己通过代码解出来了。

注意

这里有个小坑 如果用Python 去改写
JSON.stringify (Javascript) 和 json.dumps (Python) 不等价
不同之处在于 json.dumps 默认应用一些小的 pretty-print ,但 JSON.stringify 没有。

要删除所有空格,例如 JSON.stringify,您需要 specify the separators .

json_text = json.dumps(source, separators=(',', ':'))
### Python 爬虫与 JavaScript 逆向工程学习路径 #### 学习基础概念 对于初学者来说,理解爬虫的基础概念至关重要。爬虫是一种能够自动抓取互联网上的信息的程序[^2]。这类程序模仿浏览器的行为,发送HTTP请求并解析返回的内容。 #### 掌握基本工具和技术栈 - **Requests库**:用于发起HTTP/HTTPS请求,获取静态网页内容。 - **BeautifulSoup/LXML**:用来解析HTML文档结构,方便定位和抽取特定标签内的文本或属性值。 - **Scrapy框架**:提供更强大的功能支持大规模数据收集任务;内置异步I/O机制提高效率的同时也简化了开发流程。 #### 进入JS逆向阶段 当面对由JavaScript动态生成的内容时,则需深入研究其背后的逻辑实现方式: ##### 前端分析 利用现代浏览器自带的强大调试器——开发者工具(F12),可以轻松查看页面加载过程中产生的各种资源文件以及它们之间的依赖关系。特别关注Ajax/XHR类型的网络活动记录,因为这往往是服务器端接口调用的地方[^3]。 ##### 请求拦截与篡改 借助BurpSuite这样的中间件软件,在客户端和服务端之间建立代理连接点,从而捕获所有的通信流量包以便进一步审查。在此基础上还可以修改某些字段(比如User-Agent),甚至伪造整个POST body来试探不同情况下API的表现形式。 ##### 加密算法破解 如果遇到经过简单加密处理过的参数列表,那么就需要静下心来进行反编译工作了。通常会涉及到Base64编码转换、AES/RSA公私钥体系等知识点。此时可参考开源社区分享出来的案例作为入门指南[^1]。 ```python import base64 from Crypto.Cipher import AES def decrypt_aes(ciphertext, key): cipher = AES.new(key.encode(), AES.MODE_ECB) decrypted_text = unpad(cipher.decrypt(base64.b64decode(ciphertext)), AES.block_size).decode('utf8') return decrypted_text ``` #### 动态渲染页面处理 针对那些完全依靠前端框架Vue.js / React构建的应用场景,单纯依靠传统的正则表达式匹配已经难以满足需求。这时应该考虑引入Selenium WebDriver或者Puppeteer Node.js模块,二者均能驱动真实环境下的Chrome/Firefox实例完成交互操作,进而达到预期目的。 #### 实战演练项目建议 选取几个公开可用的目标站点开展练习,例如GitHub仓库统计、豆瓣电影评分排名榜等等。注意遵守robots.txt协议规定,并适当降低访问频次以免给对方带来不必要的压力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值