在实际项目中,我们使用爬虫遍历互联网,把网络中相关的网页全部抓取过来,这也体现了爬虫的特点。爬虫爬行的过程是这样子的:
互联网中每一个页面看作是一个节点,页面中的链接可以看成图的有向边。所以能用遍历的方式对互联网进行访问。
一提到图的遍历,很容易就是宽度优先遍历和深度优先遍历。
但是深度优先遍历可能会在深度上过深地遍历或者陷入黑洞,大部分爬虫不采用这种方式。但是宽度优先遍历也不是完全的宽度优先,而是采用对宽度优先的网页赋予一定的优先级。也就是通常我们说的带有偏好的宽度遍历。