突破JS动态加载,成功爬取漫画!不就一点小反爬吗!

本文介绍了如何突破动态加载,从dmzj漫画网站抓取图片URL。通过分析页面结构和JS脚本,找出数字规律,从而获取每个章节的图片链接。最后展示了实现代码和抓取效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天就先挑战另外个动态加载的漫画网站,dmzj

漫画太多了,我们先挑选几个漫画下载试一试。

 

比如我们点击第一部漫画,进去后看看。

 

这里有很多章节,获得所有的章节这里不难。 接下来我们点击一个章节进去看看

 

我们看到了地址栏url后面有一些page的编号,如果我们换个编号就能跳到对应的页卡,而且我们在点击下一页和上一页的时候,页面没有刷新,这就是说明img的地址是全部存在于当前页面的,我们得去在本html内找到所有的img。

按F12后可以发现,这里存在所有的IMG地址

 

而且我们通过request在代码中是不能获得这俩元素的,说明这俩元素是动态生成的。这就是动态加载了。

我们把这一章节的所有img的url罗列下来,做个分析,毕竟是一个章节的,按道理img的url是有规律的啊,我们看到url是主要有三个数字组成,比如: https://images.dmzj.com/img/chapterpic/1247/25304/14492330112801.jpg

这三个数字来自哪里?我们可以在所有的js文件和script里面搜索下,看看数字在哪里有存在即可,终于在一个script里面发现了猫腻啊。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值