今天就先挑战另外个动态加载的漫画网站,dmzj
漫画太多了,我们先挑选几个漫画下载试一试。

比如我们点击第一部漫画,进去后看看。

这里有很多章节,获得所有的章节这里不难。 接下来我们点击一个章节进去看看

我们看到了地址栏url后面有一些page的编号,如果我们换个编号就能跳到对应的页卡,而且我们在点击下一页和上一页的时候,页面没有刷新,这就是说明img的地址是全部存在于当前页面的,我们得去在本html内找到所有的img。
按F12后可以发现,这里存在所有的IMG地址


而且我们通过request在代码中是不能获得这俩元素的,说明这俩元素是动态生成的。这就是动态加载了。
我们把这一章节的所有img的url罗列下来,做个分析,毕竟是一个章节的,按道理img的url是有规律的啊,我们看到url是主要有三个数字组成,比如: http

本文介绍了如何突破动态加载,从dmzj漫画网站抓取图片URL。通过分析页面结构和JS脚本,找出数字规律,从而获取每个章节的图片链接。最后展示了实现代码和抓取效果。
最低0.47元/天 解锁文章
1519

被折叠的 条评论
为什么被折叠?



