1. 什么是爬虫?
爬虫,即网络爬虫,可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个就由自己来控制。
比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这只蜘蛛来说触手可及,分分钟爬下来不是事儿。
网络爬虫(又被称为搜索引擎蜘蛛,网络机器人);
2. 浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,我们也可能会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML、JS、CSS等文件,浏览器解析出来,用户便可以看到形形色色的图片了。
分析(如下):
本地host文件
本地路由
dns域名解析服务器
百度服务器
请求的页面
3. URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由3部分组成:
(1)第一部分是协议(或称为服务方式)。
http:// https:// ftp:// file://
(2)第二部分是存有该资源的主机IP地址(有时也包括端口号)。
127.0.0.1 www.tanzhouedu.com
baidu.tk
顶级域名,一级域名,根域名:除了后缀以外只有一个点号
www.baidu.com 二级域名
com baidu.com cn baidu.cn shanfeng.club com.cn org.cn baidu.com.cn
顶级域名:baidu.com baidu.com.cn
二级域名:www.baidu.com mp3.baidu.com
三级域名:a.b.baidu.com
拓:302 资源临时重定向 301 资源重定向
权重 SEO:搜索引擎优化
爬虫 反爬就像“病毒 杀毒软件”
(3)第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大的帮助。
4. 爬虫的重要思想:
(1)理论上来讲只要是网页上面能够看到的数据都是可以爬取的(因为所有看到的网页上的数据都是由服务器发送到我们电脑上面的,只是有的数据加密过,很难解密)
(2)在网页上无法看到或者无法获取的数据,爬虫同样不可能拿到,比如一些付费资料
(3)分析页面数据的原则是从简到繁,从易到难
1)直接通过网页源代码获取
2)分析是否为ajax异步加载
3)数据是否被加密