python爬虫js逆向学习(一)

本文详细介绍如何通过分析有道翻译网站的交互过程,逆向工程其加密算法,使用Python实现自动化翻译请求。涵盖查找API、解析请求头、生成可变参数及完整代码示例。
1.分析网站

以下以有道翻译网站为例介绍爬取时存在的问题

1.1 先进入网站进行访问,使用开发者工具抓包找出服务器返回的数据包的api
在这里插入图片描述
1.2 而后查看请求头,观察交互过程,请求方式为post,且部分Form Data进行了加密,i为需要翻译的输入内容,其他均不变
在这里插入图片描述

在这里插入图片描述
1.3 接下来用全局搜索寻找数据包的来源及formdata的出处,并找出可变参数的实现过程
在这里插入图片描述
1.4 在js代码中找出参数生成的过程,也可在浏览器控制台中调试生成代码
在这里插入图片描述

2.python代码实现

2.1 可变参数生成

import random
import time
from hashlib import md5
# ts:
# 时间戳:格林尼治时间(1970.1.1.00.00.00)到当下的总秒数
r=str(time.time()*1000)
# salt:
i=r+str(random.randint(0,10))
# sign:
sign=md5(("fanyideskweb" + word + salt + "Nw(nmmbP%A-r6U3EUn]Aj").encode()).hexdigest()

2.2 全部代码

import requests
import time
from hashlib import md5
import random

def main ():
	url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
	headers={
		'Cookie': '',
		'Host': 'fanyi.youdao.com',
		'Origin': 'http: // fanyi.youdao.com',
		'Referer': 'http: // fanyi.youdao.com /',
	    'User-Agent': ''}

	word=input("请输入需要翻译的文字:")
	timetemp=time.time()*1000
	salt=str(timetemp)+str(random.randint(0,10))
	temp="fanyideskweb" + word + salt + "Nw(nmmbP%A-r6U3EUn]Aj"
	sign=md5(temp.encode('utf-8')).hexdigest()
	data={
		'i':word,
		'from':'AUTO',
		'to': 'AUTO',
		'smartresult': 'dict',
		'client': 'fanyideskweb',
		'salt': salt,
		'sign': sign,
		'ts': timetemp,
		'bv': 'e3024dc52ff5c694b77471a08006ba92',
		'doctype': 'json',
		'version': '2.1',
		'keyfrom': 'fanyi.web',
		'action': 'FY_BY_REALTlME'
	}
	res=requests.post(url=url,headers=headers,data=data)
	print(res.json()['translateResult'][0][0]['tgt'])

if __name__=='__main__':
	main()
3.思路总结

3.1 首先找出获取数据的接口,查看浏览器与服务器的交互过程,试验得出formdata的规律;
3.2 根据接口名称进行全局搜索,取出异步执行的js代码,从中找出foredata的生成函数;
3.3 用python代码替换js代码生成参数。

js进一步学习见python爬虫js逆向学习(二)python爬虫js逆向学习(三)

### Python 爬虫与 JavaScript 逆向工程学习路径 #### 学习基础概念 对于初学者来说,理解爬虫的基础概念至关重要。爬虫种能够自动抓取互联网上的信息的程序[^2]。这类程序模仿浏览器的行为,发送HTTP请求并解析返回的内容。 #### 掌握基本工具和技术栈 - **Requests库**:用于发起HTTP/HTTPS请求,获取静态网页内容。 - **BeautifulSoup/LXML**:用来解析HTML文档结构,方便定位和抽取特定标签内的文本或属性值。 - **Scrapy框架**:提供更强大的功能支持大规模数据收集任务;内置异步I/O机制提高效率的同时也简化了开发流程。 #### 进入JS逆向阶段 当面对由JavaScript动态生成的内容时,则需深入研究其背后的逻辑实现方式: ##### 前端分析 利用现代浏览器自带的强大调试器——开发者工具(F12),可以轻松查看页面加载过程中产生的各种资源文件以及它们之间的依赖关系。特别关注Ajax/XHR类型的网络活动记录,因为这往往是服务器端接口调用的地方[^3]。 ##### 请求拦截与篡改 借助BurpSuite这样的中间件软件,在客户端和服务端之间建立代理连接点,从而捕获所有的通信流量包以便进步审查。在此基础上还可以修改某些字段(比如User-Agent),甚至伪造整个POST body来试探不同情况下API的表现形式。 ##### 加密算法破解 如果遇到经过简单加密处理过的参数列表,那么就需要静下心来进行反编译工作了。通常会涉及到Base64编码转换、AES/RSA公私钥体系等知识点。此时可参考开源社区分享出来的案例作为入门指南[^1]。 ```python import base64 from Crypto.Cipher import AES def decrypt_aes(ciphertext, key): cipher = AES.new(key.encode(), AES.MODE_ECB) decrypted_text = unpad(cipher.decrypt(base64.b64decode(ciphertext)), AES.block_size).decode('utf8') return decrypted_text ``` #### 动态渲染页面处理 针对那些完全依靠前端框架Vue.js / React构建的应用场景,单纯依靠传统的正则表达式匹配已经难以满足需求。这时应该考虑引入Selenium WebDriver或者Puppeteer Node.js模块,二者均能驱动真实环境下的Chrome/Firefox实例完成交互操作,进而达到预期目的。 #### 实战演练项目建议 选取几个公开可用的目标站点开展练习,例如GitHub仓库统计、豆瓣电影评分排名榜等等。注意遵守robots.txt协议规定,并适当降低访问频次以免给对方带来不必要的压力。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值