(原创)VC++ 采集与防采集的较量
新买了部二手KINDLE,想用来看老夫子漫画,上网找了一下看到某网站有这个漫画
之前自己写了个VC++ 做的采集浏览器,想到用来可以把网站的老夫子漫画爬下来自己做成电子书,应该是很容易的事,开头想是这样想,后来尝试了一下,虽说不是很容易就采下来,但只是难度增加了一点点
网站初步分析做了以下防采集的功能
禁用了查看网页源码的功能,在谷歌浏览器右键不能查看源码,站长的想法就是不让你看网页的标签特征
不过这个也没啥难度,大不了保存下来,在用文本文件打开,而且因为自己定怕采集器本身就是个浏览器,你禁了谷歌IE的,也禁不了我自己写的
然后我看了一下分页都是有规律的,1,2,3,4,5,6这样排下去的
所以每个采集页面的网址用EXCEL或者自己写了个小工具批量生成就行了
后来我就正式去写采集插件采
网页数据给我采下来了
然后提取到网页图片的URL ,然后自己想根据URL用工具批量下载图片的时候,我发觉蒙B了,第1,如果只是根据网页网址去采的话
站长又出了一招大招
原来站长图片做了防盗链的功能,用网址去访问这个图片会给你一张正义的图片
后来我又想,这也没啥,因为我本身的采集器就是个浏览器,图片显示的时候已经给存到本地控件上,我提取出来就行了,然后我又敲了一堆代码改进了插件
经测试后图片给我采下来了,但我又蒙B了,为什么采下来的图片都是同一张图片
站长又出了一招大招
后来我又看了一下,原来站长又做了一功能,无论你用第几页的网址去访问网页,它都是显示每一卷漫画的第一页,你想看第几页的网址,要点击后才能显示
后来我又想,唉,这也不是什么难事,我注入JS脚本去执行它显示图片的JS函数就行了
后来经过我分析,找出了关键的JS函数,结局没有悬念,老夫子就给我采下来了
看到网上一堆PYTHON做采集的,写得PYTHON做采集多牛B,其实老大哥C语言做采集也不差,PYTHON能做的C都能做,C能做的PYTHON大把做不了
多谢关注C语言也能干大事的博客,3Q VERY MUCH!