第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理...

本文详细介绍了如何使用Python的Scrapy框架打造搜索引擎爬虫,重点讲解了深度优先与广度优先两种基本爬取策略的原理及应用场景。深度优先采用递归方式实现,适合深入挖掘网站的垂直内容;广度优先则利用队列机制按层级展开,适用于全面覆盖同一层级的所有链接。

第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理

 

 

网站树形结构

 

深度优先

是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认是深度优先的

 

 

 

 

广度优先

是以层级来执行的,(列队方式实现)

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值