python爬虫之js逆向(二)

python爬虫之js逆向(二)

写在前面

每天一更,养成好习惯从我做起。真正想做成一件事,不取决于你有多少热情,而是看你能多久坚持。千万别奢望光有热情就能得偿所愿。

网站分析

今天的带大家了解一下md5加密,目标网站是有道翻译:http://fanyi.youdao.com/
首先第一步打开网址(我用的是google)f12,查看是否是post请求,随便输入一个字,右击查看网页源代码,ctrl+f查看是否有你想要的结果,没有那么ok,肯定不是get请求。(可能有点片面,有错请大佬即时指出,感激不尽)。在这里插入图片描述
ok我们在这里可以看到请求的网址加POST请求
再接着往下看
在这里插入图片描述
然后这是我们所需要复制的请求头,在这可以教大家一个快速给请求头添加格式的方式,复制请求头到pycharm里,然后使用ctrl+r快捷键打开替换功能,并勾选Regex

替换源为:(.):\s(.)$

替换为:"$1": “$2”,

"$1": "$2",
最后再ctrl+alt+L键,整理一下格式就行了

接下来进入正题,看好了,最最最重点的地方来喽。
看我们下面的在这里插入图片描述
看Form data 的请求参数:
salt: 15729403285424
sign: 9fc6c309e0686edbbc3262034face7da
ts: 1572940328542
bv: 6ba427a653365049d202e4d218cbb811

这四个看着都是加密过来的 我们需要一个个的来看,首先全局搜索salt
在f12下全局搜索 可以按ctrl+shift+f 最下面会出现一个搜索框我们只需将salt复制进去,搜索就会出现所有包含这个单词的文件
在这里插入图片描述
那么我们点进去看一下
在这里插入图片描述
ok那么我们可以清晰地看都之前的四个参数的数据都在这里

ts 是获取了当前的时间戳
bv是 MD5 加密
salt 随机数
sign是 MD5 加密
在这里插入图片描述

可以看到bv只是请求头的md5加密
r = “” + (new Date).getTime()
i = r + parseInt(10 * Math.random(), 10)
转成python生成就是(通过看其他大佬写的发现,之前还是将四个参数全部放上去):
i = str(time.time()*1000 + random.randint(1, 10))

接下来就是代码实现,很简单的代码:

import requests
import random
import time
import hashlib

headers={
        "Cookie": "OUTFOX_SEARCH_USER_ID=760236899@61.181.7.3; P_INFO=guanjingtao1@126.com|1570869772|0|other|11&15|tij&1570868005&carddav#tij&null#10#0#0|139090&0||guanjingtao1@126.com; JSESSIONID=aaa-VPo4LHTMo-fd09q4w; OUTFOX_SEARCH_USER_ID_NCOO=772066246.9827566; ___rl__test__cookies=1572245122603",
        "Referer": "http://fanyi.youdao.com/",
        "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",
        }
data = {
    "i": "look",
    "client": "fanyideskweb",
    "keyfrom": "fanyi.web",
}
i = str(time.time()*1000 + random.randint(1, 10))
e=input("请输入单词>>")
tmp="fanyideskweb" + e + i + "n%A-rKaT5fb[Gy?;N5@Tj"
sign=hashlib.md5(tmp.encode('utf-8')).hexdigest()
data['i']=e
data['salt']=i
data['sign']=sign
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
res = requests.post(url,headers=headers, data=data)
print(res.text)

博主也是一个刚刚开始学习的小白,有错误希望大佬指导,希望大家一起学习进步。有想探讨的问题可以评论我加你。

### Python 爬虫 JS 逆向工程实际案例 #### 微信公众平台 JavaScript 逆向改写实例 在微信公众平台上,许多接口返回的数据经过了复杂的加密处理。为了能够获取这些数据,在一个具体的案例中,进行了微信公众平台的 JavaScript 逆向改写工作[^2]。 ```python import requests from Crypto.Cipher import AES import base64 import json def decrypt_data(encrypted_data, key): """解密微信公众号平台返回的加密数据""" cipher = AES.new(key.encode('utf8'), AES.MODE_CBC, iv='0102030405060708'.encode()) decrypted_data = unpad(cipher.decrypt(base64.b64decode(encrypted_data))) return json.loads(decrypted_data) def pad(s): """填充字符串至AES块大小""" bs = AES.block_size padding = (bs - len(s) % bs) * chr(bs - len(s) % bs) return s + padding def unpad(s): """移除填充字符""" return s[:-ord(s[-1:])] # 示例:模拟登录并抓取特定文章列表 login_url = 'https://api.weixin.qq.com/sns/oauth2/access_token' params = { 'appid': '<your_appid>', 'secret': '<your_secret>', 'code': '<authorization_code>' } response = requests.get(login_url, params=params).json() access_token = response['access_token'] openid = response['openid'] article_list_api = f'https://api.someendpoint/getArticles?token={access_token}&openId={openid}' headers = {'User-Agent': 'Mozilla/5.0'} r = requests.post(article_list_api, headers=headers) if r.status_code == 200: encrypted_articles = r.json()['data']['articles'] articles = decrypt_data(encrypted_articles, '<aes_key>') print(json.dumps(articles)) else: raise Exception(f'Failed to fetch article list with status code {r.status_code}') ``` 这段代码展示了如何利用 `requests` 和 PyCryptodome 库来完成对微信公众平台 API 的调用以及对接收到的加密内容进行解码的过程。需要注意的是,这里的 `<your_appid>`, `<your_secret>` 及其他敏感信息应当替换为真实的值,并妥善保管以保障安全性。 #### MD5 加密与源代码改写的实践方法 另一个常见的应用场景是在某些情况下服务器端会对客户端发送过来的信息做简单的哈希校验(比如使用 MD5)。此时可以考虑直接提取原始 JavaScript 文件中的相关部分来进行本地化改造[^3]: ```javascript // 原始 js 中的部分 md5 计算逻辑 function calcMd5(str){ var hash = crypto.createHash('md5').update(str); return hash.digest("hex"); } ``` 将其转换成 Python 版本如下所示: ```python import hashlib def calculate_md5(string_to_hash): """计算给定字符串的MD5摘要""" m = hashlib.md5() m.update(string_to_hash.encode('utf-8')) return m.hexdigest() test_string = "example string" print(f"The MD5 of '{test_string}' is: {calculate_md5(test_string)}") ``` 此段脚本实现了相同的功能&mdash;即接收输入字符串并输出其对应的 MD5 散列值。这种方法适用于当无法绕过前端验证而必须模仿原生行为的情形下。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

进击的黑蛋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值