(原创)VC++ 采集与防采集的较量

(原创)VC++ 采集与防采集的较量

新买了部二手KINDLE,想用来看老夫子漫画,上网找了一下看到某网站有这个漫画
之前自己写了个VC++ 做的采集浏览器,想到用来可以把网站的老夫子漫画爬下来自己做成电子书,应该是很容易的事,开头想是这样想,后来尝试了一下,虽说不是很容易就采下来,但只是难度增加了一点点

在这里插入图片描述

在这里插入图片描述
网站初步分析做了以下防采集的功能

禁用了查看网页源码的功能,在谷歌浏览器右键不能查看源码,站长的想法就是不让你看网页的标签特征

不过这个也没啥难度,大不了保存下来,在用文本文件打开,而且因为自己定怕采集器本身就是个浏览器,你禁了谷歌IE的,也禁不了我自己写的

在这里插入图片描述

然后我看了一下分页都是有规律的,1,2,3,4,5,6这样排下去的
所以每个采集页面的网址用EXCEL或者自己写了个小工具批量生成就行了

在这里插入图片描述

后来我就正式去写采集插件采

网页数据给我采下来了

在这里插入图片描述
然后提取到网页图片的URL ,然后自己想根据URL用工具批量下载图片的时候,我发觉蒙B了,第1,如果只是根据网页网址去采的话
站长又出了一招大招

在这里插入图片描述

原来站长图片做了防盗链的功能,用网址去访问这个图片会给你一张正义的图片

后来我又想,这也没啥,因为我本身的采集器就是个浏览器,图片显示的时候已经给存到本地控件上,我提取出来就行了,然后我又敲了一堆代码改进了插件

在这里插入图片描述

经测试后图片给我采下来了,但我又蒙B了,为什么采下来的图片都是同一张图片

在这里插入图片描述

站长又出了一招大招
后来我又看了一下,原来站长又做了一功能,无论你用第几页的网址去访问网页,它都是显示每一卷漫画的第一页,你想看第几页的网址,要点击后才能显示

后来我又想,唉,这也不是什么难事,我注入JS脚本去执行它显示图片的JS函数就行了
后来经过我分析,找出了关键的JS函数,结局没有悬念,老夫子就给我采下来了

在这里插入图片描述

看到网上一堆PYTHON做采集的,写得PYTHON做采集多牛B,其实老大哥C语言做采集也不差,PYTHON能做的C都能做,C能做的PYTHON大把做不了

多谢关注C语言也能干大事的博客,3Q VERY MUCH!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值