《精通Python爬虫框架Scrapy》第7章 配置与管理

本文档介绍了Scrapy框架的配置与管理,包括使用Scrapy设置、基本设置和进阶设置。基本设置涵盖日志、性能、提前终止爬取、HTTP缓存等方面,进阶设置涉及项目相关设置、Scrapy扩展、下载调优等。Scrapy提供了丰富的设置选项,允许开发者根据需求调整爬虫行为,如限制并发请求、启用HTTP缓存、设置爬取风格等,以提高爬取效率和应对各种场景。

前面章节讲解了使用Scrapy开发一个简单爬虫,并用它从网络上抽取数据是多么简单。Scrapy包含很多工具和功能,可以通过设置使它们可用。对于许多软件框架来说,设置是“令人讨厌的东西”,因为它需要根据系统如何运转进行调整。而对于Scrapy来说,设置则是其最重要的基本机制之一,除了调优和配置外,还可以启用功能,以及允许我们扩展框架。我们不打算与优秀的Scrapy文档竞争,只想辅助你更快地浏览设置概况,并找出与你最相关的内容。当你准备在生产环境中进行变更之前,请仔细阅读Scrapy文档。

在Scrapy中,可以按照5个递增的优先级修改设置。我们将会依次看到这 5 个等级。第一级是默认设置,通常不需要修改它,不过scrapy/settings/default_settings.py(在系统的Scrapy源代码或Scrapy的GitHub中可以找到)中的代码确实值得一读。默认设置在命令级别中得以优化。实际上,除非想要实现自定义命令,否则无需考虑它。通常情况下,我们只会在命令级别下一级的项目<project_name>/settings.py文件中修改设置。这些设置只应用于当前项目。该级别最为方便,因为当我们将项目部署到云服务时,settings.py文件将会打包在其中,并且由于它是一个文件,因此可以使用自己喜欢的文本编辑器轻松调整几十个设置。接下来一级是每个爬虫的设置。通过在爬虫定义中使用custom_settings属性,可以轻松地为每个爬虫自定义设置。比如,可以通过该设置为一个指定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人民邮电出版社有限公司

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值