(原创)VC++ 采集与防采集的较量

最新推荐文章于 2025-05-12 18:28:31 发布

原创最新推荐文章于 2025-05-12 18:28:31 发布 · 291 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

c++ 同时被 3 个专栏收录

8 篇文章

订阅专栏

8 篇文章

订阅专栏

自研小软件

7 篇文章

订阅专栏

博主使用VC++自制浏览器进行漫画网站的网页采集，面对网站的防采集措施，如禁用源码查看、防盗链及动态加载图片，通过注入JS脚本、改进插件等方式成功突破，展示了C语言在采集领域的强大能力。

(原创)VC++ 采集与防采集的较量

新买了部二手KINDLE，想用来看老夫子漫画，上网找了一下看到某网站有这个漫画
之前自己写了个VC++ 做的采集浏览器，想到用来可以把网站的老夫子漫画爬下来自己做成电子书，应该是很容易的事，开头想是这样想，后来尝试了一下，虽说不是很容易就采下来，但只是难度增加了一点点

在这里插入图片描述

在这里插入图片描述
网站初步分析做了以下防采集的功能

禁用了查看网页源码的功能，在谷歌浏览器右键不能查看源码，站长的想法就是不让你看网页的标签特征

不过这个也没啥难度，大不了保存下来，在用文本文件打开，而且因为自己定怕采集器本身就是个浏览器，你禁了谷歌IE的，也禁不了我自己写的

在这里插入图片描述

然后我看了一下分页都是有规律的，1，2，3，4，5，6这样排下去的
所以每个采集页面的网址用EXCEL或者自己写了个小工具批量生成就行了

在这里插入图片描述

后来我就正式去写采集插件采

网页数据给我采下来了

在这里插入图片描述
然后提取到网页图片的URL ，然后自己想根据URL用工具批量下载图片的时候，我发觉蒙B了，第1，如果只是根据网页网址去采的话
站长又出了一招大招

在这里插入图片描述

原来站长图片做了防盗链的功能，用网址去访问这个图片会给你一张正义的图片

后来我又想，这也没啥，因为我本身的采集器就是个浏览器，图片显示的时候已经给存到本地控件上，我提取出来就行了，然后我又敲了一堆代码改进了插件

在这里插入图片描述

经测试后图片给我采下来了，但我又蒙B了，为什么采下来的图片都是同一张图片

在这里插入图片描述

站长又出了一招大招
后来我又看了一下，原来站长又做了一功能，无论你用第几页的网址去访问网页，它都是显示每一卷漫画的第一页，你想看第几页的网址，要点击后才能显示

后来我又想，唉，这也不是什么难事，我注入JS脚本去执行它显示图片的JS函数就行了
后来经过我分析，找出了关键的JS函数，结局没有悬念，老夫子就给我采下来了

在这里插入图片描述

看到网上一堆PYTHON做采集的，写得PYTHON做采集多牛B，其实老大哥C语言做采集也不差，PYTHON能做的C都能做，C能做的PYTHON大把做不了

多谢关注C语言也能干大事的博客,3Q VERY MUCH!

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。