爬虫系列（四）--全站爬取

全站爬取：Python爬虫广度优先与深度优先实践

最新推荐文章于 2021-09-19 22:24:14 发布

原创

最新推荐文章于 2021-09-19 22:24:14 发布 · 5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #python #python爬虫

本文介绍了如何使用Python进行全站爬取，包括广度优先和深度优先两种策略。首先，从起始链接加入队列，确保每个页面只爬取一次。然后，爬取数据并提取新链接，将未访问链接加入队列。需要注意网站链接的处理、内存管理以及防止被反爬策略。最后，提供了代码示例，但强调每个网站的爬取规则需要相应调整。

爬虫系列（四）--全站爬取

全站爬取需要的数据基于一个这样的假设：某网站的页面上存在该网站其他页面的连接，通过这些连接跳转的新的页面进行数据的爬取。在开始这个之前，要先明白栈和队列。本篇中介绍的是单线程的实现方式，大规模的爬取需要多线程，分布式爬取。

1.实现步骤

（1）准备几个起始链接加入待队列Q中，例如Q=["http://www.xxx.com/aaa/","http://www.xxx.com/bbb/","http://www.xxx.com/ccc/"]

（2）并将这几个链接加入一个入队集合S中,S={"http://www.xxx.com/aaa/","http://www.xxx.com/bbb/","http://www.xxx.com/ccc/"}这个集合作用是保证一个网页只爬取一次。

（3）从Q中取出一个链接url（出队，取出队首元素，并从队列中删除该元素），如果Q中没有链接，结束爬取。如果有链接url="http://www.xxx.com/aaa/"，进行（4）步骤。

（4）对url爬取，保存需要的数据（写到文件中，建议使用json格式保存，一行一个页面），找出该页面上的所有链接urls

（5）把符合我们要求的连接（例如以http://www.xxx.com 开头的链接）找出来，判断每一个连接urli是否在S中。如果不在S中，把urli加入S，urli入队

（6）继续执行（3）步骤

注意1：这个是广度优先爬取，如果把队换成栈，会变成深度优先爬取。如果没有特殊的需求，一般都是使用广度优先爬取。

注意2：对于一个小网站来说，这样操作没有什么问题，但是有些网站页面很多，Q和S中存储的连接太多直接撑爆内存，这时可以实现一个硬盘队列（栈）和硬盘集合，本系列文章不实现这些功能。

注意3：有

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。