Python反爬虫的四种常见方式-JS逆向方法论

最新推荐文章于 2024-07-26 16:52:12 发布

2401_84140816

最新推荐文章于 2024-07-26 16:52:12 发布

阅读量817

点赞数 10

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.youkuaiyun.com/2401_84140816/article/details/138987063

版权

程序员专栏收录该内容

189 篇文章

订阅专栏

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

本文就JS反爬虫的策略展开讨论，看看这中间都有着怎样的方法破解。

一、JS写cookie

我们要写爬虫抓某个网页里面的数据，无非是打开网页，看看源代码，如果html里面有我们要的数据，那就简单了。用requests请求网址得到网页源代码然后解析提取。

等等！requests得到的网页是一对JS，跟浏览器打开看到的网页源码完全不一样！这种情况，往往是浏览器运行这段JS生成一个（或多个）cookie再带着这个cookie做二次请求。服务器那边收到这个cookie就认为你的访问是通过浏览器过来的合法访问。

其实，你在浏览器（chrome、Firefox都可以）里可以看到这一过程。首先把Chrome浏览器保存的该网站的cookie删除，按F12到Network窗口，把“preserve log”选中（Firefox是“Persist logs”），刷新网页，这样我们就可以看到历史的Network请求记录。比如下图：

在这里插入图片描述

第一次打开“index.html”页面时返回的是521，内容是一段JS代码；第二次请求这个页面就得到了正常的HTML。查看两次请求的cookies，可以发现第二次请求时带上了一个cookie，而这个cookie并不是第一次请求时服务器发过来的。其实它就是JS生成的。

对策就是，研究那段JS，找到它生成cookie的算法，爬虫就可以解决这个问题。

二、JS加密ajax请求参数

写爬虫抓某个网页里面的数据，发现网页源代码里面没有我们要的数据，那就有点麻烦了。那些数据往往是ajax请求得到的。但是也不用怕，按F12打开Network窗口，刷新网页看看加载这个网页都下载了哪些URL，我们要的数据就在某个URL请求的结果里面。这类URL在Chrome的Network里面的类型大多是XHR。通过观察它们的“Response”就可以发现我们要的数据。

然而事情往往不是这么顺利，这个URL包含很多参数，某个参数是一串看上去无意义的字符串。这个字符串很可能是JS通过一个加密算法得到的，服务器也会通过同样的算法进行验证，验证通过了才认为你这是从浏览器来的请求。我们可以把这个URL拷贝到地址栏，把那个参数随便改个字母，访问一下看看是不是能得到正确的结果，由此来验证它是否是很重要的加密参数。

对于这样的加密参数，对策是通过debug JS来找到对应的JS加密算法。其中关键的是在Chrome里面设置“XHR/fetch Breakpoints”。

在这里插入图片描述

三、JS反调试（反debug）

前面我们都用到了Chrome 的F12去查看网页加载的过程，或者是调试JS的运行过程。这种方法用多了，网站就加了反调试的策略，只有我们打开F12，就会暂停在一个“debugger”代码行，无论怎样都跳不出去。它看起来像下面这样：

在这里插入图片描述

不管我们点击多少次继续运行，它一直在这个“debugger”这里，每次都会多出一个VMxx的标签，观察“Call Stack”发现它好像陷入了一个函数的递归调用。这个“debugger”让我们无法调试JS。但是关掉F12窗口，网页就正常加载了。

解决这种JS反调试的方法我们称之为“反-反调试”，其策略是：通过“Call Stack”找到把我们带入死循环的函数，重新定义它。

这样的函数几乎没有任何其它功能只是给我们设置的陷阱。我们可以把这个函数在“Console”里面重新定义，比如把它重新定义为空函数，这样再运行它时就什么都不做，也就不会把我们带人陷阱。在这个函数调用的地方打个“Breakpoint”。因为我们已经在陷阱里面了，所以要刷新页面，JS的运行应该停止在设置的断点处，此时该函数尚未运行，我们在Console里面重新定义它，继续运行就可以跳过该陷阱。

四、JS发送鼠标点击事件

还有些网站，它的反爬都不是上面的方式。你从浏览器可以打开正常的页面，而在requests里面却被要求输入验证码或重定向其它网页。起初你可能一头雾水，但不要怕，认真看看“Network”或许能发现些线索。比如下面这个Network流里面的信息：

在这里插入图片描述