【网络爬虫】
如果python基础知识学的差不多了,那么用【爬虫】来练手是一个即简单又富有成就感的方式了;那么我们先简单聊聊【网络爬虫】是一个什么东西?
1.什么是【网络爬虫】?
MBA智库百科写道:“网络爬虫又名‘网络蜘蛛’,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。”
看完可能还是不太懂对吧?那我们做一个比喻:我们知道互联网或者说因特网是可以把全球进行互联的一种载体,整个互联网就相当于一张覆盖全球的“大蜘蛛网”,所有的二进制信息几乎全部放置在这张“蜘蛛网上”,比如今天微博晒的“今天天气真好,po一张美照吧”的照片,又或者是特朗普推特治国上的一条“You are fake news !”的信息,都存在于互联网的某一个空间里;那么【网络爬虫】自然就相当于一只只小蜘蛛,时刻准备抓取互联网上的“猎物”;其实【网络爬虫】并不是一种真实存在的事物,它只能算是一种“网络工具”,就好比我们如果想要计算“10个3相加”,就需要用到“乘法”这个工具一样,“乘法”也只能称作“工具”或是“方法”,所以一定不要以为【网络爬虫】是一个具体的事物。
另外,【网络爬虫】并不只属于python的范畴,我们可以借助python语言来编写一个【爬虫】,当然也可以使用其他的语言,如java等。
2.爬虫就在我们身边
其实,【网络爬虫】离我们真的很近,我们的生活是离不开【网络爬虫】的,为什么这么说?想必当代的每个人都用“百度”、“360”等搜索引擎查过资料吧。
其实每个搜索引擎都有着自家的【网络爬虫】,比如360家的爬虫叫做“360Spider”,这些搜索引擎的【网络爬虫】的主要作用就是帮助我们通过搜索框里的几个关键词来对全网可能相关的词条进行搜索,然后再按照一定的顺序显示在当前页面,从而帮助我们完成了一次搜索;是不是突然感觉【网络爬虫】和我们非常亲近了呢?
3.爬虫是把双刃剑
当然,“科技是把双刃剑”是我们经常说的一句话了,【网络爬虫】同样也是一些黑客用来获取违法信息的工具,既然所有的信息都存在于互联网上,那么黑客就可以利用【网络爬虫】来进行信息的非法获取,比如“你号没了!”就有可能是黑客利用【网络爬虫】干的,当然【网络爬虫】不仅可以获取信息,还可以对网络上的信息进行更改,比如改个考试成绩啥的,理论上说是可以实现的,嗯!因此网络安全一直是所有互联网公司最注重的事情,互联网诞生了【网络爬虫】,针对这些【爬虫】同样诞生了【反爬虫】,然后又有了【反反爬虫】、【反反反爬虫】。。。这种【爬虫】与【反爬虫】之间的一次次对抗,得以形成了一场场没有硝烟的“网络战争”。
当然,【网络爬虫】的正确使用的确可以帮助我们节约很多时间,因此在互联网领域并不会对所有的所有的【爬虫】进行制裁,针对于【网络爬虫】,很多网站都会告知【网络爬虫】“你可以爬取哪些资料”等信息,所以合理的利用【网络爬虫】技术是可以节约我们很多时间的。
4.【网络爬虫】应用举例
第一个就是我们上文中所说的,很多搜素引擎都会有自家的【网络爬虫】用于检索全网的信息,大家也肯定也感受到它给我们带来的方便之处了。
第二个针对于公司的HR来言,这应该是一个很好的工具,HR的一个重要的工作肯定是招聘人才了,但是那些人才的信息在网络上到处都是,我们怎样才能快速而方便的找到适合本公司的人才,然后进行邀请应聘呢?如果不用爬虫的话,肯定是需要去“58同城”、‘BOSS直聘’等网站,搜索符合部分词条的应聘者,然后“大海捞针”式的打电话,确实是个比较头疼的活,主要是在整理符合条件的应聘者时会耗费大量时间;那我们如果使用【网络爬虫】呢?基本上是比较简单了,几十行的代码,足以按照公司的人才需求,将指定招聘网站的符合条件的人才信息,迅速的抓取并储存在表格里,甚至还可以对抓取的信息再进行数据清理及分析,大大的提高了工作的效率。
第三个,对于应聘者而言,使用【网络爬虫】同样方便,可以快速筛选符合自己要求的公司,然后投递简历;当然,找到工作可能挺简单,但是到工作地租房又成了另一个难题,“链家”、“58同城”等租房网站又一次让踏入社会的人头疼,同样需要一条条的房源进行询问,非常耗费时间;如果使用【网络爬虫】,同样是几十行 代码,一键获取所有符合条件的房源,更是节约了很多时间。
当然,最青睐【网络爬虫】的还是那些做数据分析的人,我们需要得到数据之后,才能进行数据处理分析,那些数据就是通过【网络爬虫】而来,当今【网络爬虫】不再只是专业技术人才所使用的工具,越来越多的非计算机领域也在慢慢的尝试使用它;像是在学校我们可以使用它来获取学生的成绩,在公司可以快速获取职工信息或是业务数据,凡是涉及到需要整理大量信息的工作都可以使用【网络爬虫】来提高效率。
因此,在这个信息大爆发的互联网时代,掌握一门计算机编程语言还是有些用处的,所以当前也出现过很多python可能比Excel更实用的言论,同样作为数据处理的工具,有python加持后,可能会产生更多的高效率火花。