20行Python scrapy 代码,去采集【蓝桥】训练营

本文介绍了Scrapy的settings配置,包括4个级别、常用配置如爬虫名称、日志、统计、性能等,并给出一个采集蓝桥训练营课程的爬虫案例,展示了如何使用Scrapy爬取数据并保存为JSON文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy 中的 settings.py 文件在项目中是非常重要的,因其包含非常多的配置。
这篇博客基于官方手册为你说明 settings.py 文件相关配置,并补充一些扩展说明。

settings 的 4 个级别

  1. 优先级最高 - 命令行,例如 scrapy crawl my_spider -s LOG_LEVEL=WARNINI
  2. 优先级第二 - 爬虫文件自己的设置,例如在 xxx.py 文件中设置 custom_settings
  3. 优先级第三 - 项目模块,这里指的是 settings.py 文件中的配置;
  4. 优先级第四 - default_settings 属性配置;
  5. 优先级第五 - default_settings.py 文件中的配置。

settings 配置的读取,一般使用 spider 中的 from_crawler 方法,在中间件,管道,扩展中都可以进行调用。

settings 配置读取操作非常简单,上一篇博客已经有所涉及,命令格式如下所示:

scrapy setti
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦想橡皮擦

如有帮助,来瓶可乐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值