第三百三十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

转载于 2017-08-02 20:30:00 发布 · 160 阅读

·

0

·

文章标签：

#数据结构与算法 #python #爬虫

本文详细介绍了如何使用Python的Scrapy框架打造搜索引擎爬虫，重点讲解了深度优先与广度优先两种基本爬取策略的原理及应用场景。深度优先采用递归方式实现，适合深入挖掘网站的垂直内容；广度优先则利用队列机制按层级展开，适用于全面覆盖同一层级的所有链接。

第三百三十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理

网站树形结构

深度优先

是从左到右深度进行爬取的，以深度为准则从左到右的执行（递归方式实现）Scrapy默认是深度优先的

广度优先

是以层级来执行的，（列队方式实现）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。