Scrapy 的优缺点?以及如何设置深度爬取

最新推荐文章于 2025-07-14 00:51:37 发布

EchoPython

最新推荐文章于 2025-07-14 00:51:37 发布

阅读量6.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_42992919/article/details/95631215

Python 专栏收录该内容

322 篇文章

订阅专栏

本文介绍了Scrapy爬虫框架的优缺点，优点包括异步、采用xpath、有强大统计和log系统等；缺点有扩展性差、数据出错难察觉。还说明了可在settings.py中设置depth_limit限制爬取深度，最后对比了Scrapy和Scrapy-Redis，后者让Scrapy支持分布式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优点：

1）scrapy 是异步的
2）采取可读性更强的 xpath 代替正则
3）强大的统计和 log 系统
4）同时在不同的 url 上爬行
5）支持 shell 方式，方便独立调试
6）写 middleware,方便写一些统一的过滤器
7）通过管道的方式存入数据库

缺点：

1）基于 python 的爬虫框架，扩展性比较差
2）基于 twisted 框架，运行中的 exception 是不会干掉 reactor（反应器），并且异步框架出错后是不会停掉其他任务的，数据出错后难以察觉。

设置深度爬取

通过在 settings.py 中设置 depth_limit 的值可以限制爬取深度，这个深度是与 start_urls 中定义 url 的相对值。也就是相对 url 的深度。若定义 url 为 http://www.domz.com/game/,depth_limit=1 那么限制爬取的只能是此 url 下一级的网页。深度大于设置值的将被忽视。

scrapy以及scrapy-redis区别

scrapy 是一个 Python 爬虫框架，爬取效率极高，具有高度定制性，但是不支持分布式。
而 scrapy-redis 一套基于 redis 数据库、运行在 scrapy 框架之上的组件，可以让 scrapy 支持分布式策略， Slaver 端共享 Master 端 redis 数据库里的 item 队列、请求队列和请求指纹集合。
- 为什么选择 redis 数据库，因为 redis 支持主从同步，而且数据都是缓存在内存中的，所以基于 redis 的分布式爬虫，对请求和数据的高频读取效率非常高。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。