今年入了python的坑,而入坑的缘由很大都是因为爬虫。而入门爬虫,我们需要大致的来了解一下什么是爬虫?以及爬虫工作的原理。从而方便以后的学习。本博客只用于交流学习以及记录自己的成长过程,若有不足和有待改进的地方,希望各位大佬、朋友指出。互相学习!互相交流!
1、什么是爬虫
爬虫,即网络爬虫(搜索引擎爬虫),可以理解为在网络上爬行的一只蜘蛛。将互联网比做一张大网,而爬虫便是这张网上爬来爬去的蜘蛛,而资源就是‘猎物’,需要什么资源,就由人为的来控制。
利用爬虫抓取一个网页,在这个‘网’中它发现了一条‘道路’#指向网页的超链接#。那么爬虫就能到另一个‘网’中爬取数据。这样,整个连在一起的‘大网’#互联网#对这只蜘蛛来说触手可及,获取所需资源也是分分钟的事。
学习过前端的同学应该知道,每一个 a 标签#(https://www.jianshu.com/p/f9720dca4aed)<HTML 标签>#就是一条道路,由此也可以去理解,爬虫直接爬取的并不是我们所需的网络资源,而是爬取网页的源代码,然后我们再手动操作过滤选择我们所需资源的url#网络资源定位符/链接#,最终再下载或者操作我们所需的数据,从而达到我们的目的。
理论上来讲只要是网页上能够看到的数据都可以爬取(‘因为所有看到的网页上的数据都是由服务器发送到电脑上的,只是有的数据经过加密,很难解密’)。在网页上无法看到或者无法获取的数据,爬虫同样不可能拿到,比如一些付费资料(付费的主要是现在还不会哈哈哈哈)。
每个大型的搜索引擎都是很强大的,国内的例如:百度、好搜、搜狗等。
以上只是个人对爬虫的浅薄见解,百度百科(https://baike.baidu.com/item/搜索引擎爬虫/20256370?fr=aladdin)有更加专业、权威的解释,有兴趣的朋友可以去看一看。