猿人学web端爬虫攻防大赛赛题解析_第一题：源码乱码

最新推荐文章于 2025-04-06 21:16:55 发布

起不好名字就不起了

最新推荐文章于 2025-04-06 21:16:55 发布

阅读量1.4w

点赞数 6

分类专栏：爬虫 Python 文章标签： javascript 加密解密爬虫 python

本文链接：https://blog.youkuaiyun.com/qq_38017966/article/details/109298893

版权

本文是作者参加爬虫攻防大赛的第一题解析，涉及JavaScript混淆代码的反混淆过程。作者通过分析源码、寻找加密逻辑，最终成功构造请求，提取所需数据。过程中遇到的难点包括js源码混淆、参数构造、编码问题等，通过不断调试和学习，逐步解决了这些问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、前言

接触网络爬虫已经有两三年了，但其实一直没系统的学习过，都是在偶尔有爬数据需求时在网上找教程，应对一些普通的静态网页或者是没有加密参数的ajax请求时没有问题，但现在各类网站越发注重数据保护，制定了很多反爬虫措施，以至于我现有的那点技术储备面对各种花式反扒虫显得捉襟见肘，痛定思痛，还是要认真系统的学习下相关知识。恰巧最近关注的爬虫大佬王平办了个爬虫攻防大赛，所以就想用这些赛题来练习一下，一是在逆向过程中印证学的一些发爬虫理论知识，二是通过实践提高自己的逆向解析能力。

这个专栏打算写十篇，刚好对应这次比赛里的十道赛题，记录一下自己磕磕绊绊的反爬入门过程，希望写到第十篇的时候我还没从入门到放弃…

2、题目理解

待爬取页面

基本概念：

JavaScript 混淆：对 JavaScript 代码进行复杂化处理，它的目的就是使得 JavaScript变得难以阅读和分析，降低代码可读性

根据这题的名称，可以看出两点：一是这个网页有js混淆，要解析必然要进行反混淆；二是从源码乱码判断网页html源代码应该不那么容易观察。

根据题目内容，初步判断我们要抓取的机票价格数据必然不会洗白白在html源码里等我们，大概率是通过ajax请求来获取数据接口。

基于上述理解开始动手搞事情。

3、逆向（踩坑）分析过程

3.1、初步分析

首先F12打开开发者窗口，刷新一下网页，观察请求的数据。这里第一个坑是调试时会出现debugger，需要右键选择Never pause here，这样之后调试就不会卡在这个页面。

继续观察XHR请求，可以发现数据是通过这个接口请求到的，真是令人惊喜的发现，看来我们距离成功就一步了，只要找到参数m的构造逻辑那这小数据还不是手到擒来！
数据接口返回数据

3.2、当头一棒

明确了要找m的生成逻辑目标后，首先想到的是通过设置XHR断点，找到发生ajax请求时调用的js源文件，然后全局搜索字符串，看看有没有发现。

停在这个js文件这里了，看来加密逻辑应该在这里：

用 ctrl+c+f 快捷键调出搜索框，搜索一下m字符试试。好家伙，不搜不得了，一搜吓一跳，800多个匹配结果，这么搞一个个看得看到猴年马月。大致观察一下，感觉都不像是有加密逻辑的样子啊，但是按我之前的知识结构来看，加密参数的生成逻辑应该就在这里才对，一番思考后，我最终还是没想明白咋回事，还是看答案吧。