scrapy中的settings设置

本文介绍了Scrapy爬虫的基本配置方法,包括如何调整下载延迟、禁用cookies、设置User-Agent中间件等关键参数,以确保爬虫稳定高效运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.robots.txt协议

ROBOTSTXT_OBEY = False

需要激活并修改为False

DOWNLOAD_DELAY = 0.5

download_delay需要激活,并设置时间,降低爬取速度

COOKIES_ENABLED = False

禁用cookie追踪

#SPIDER_MIDDLEWARES = {
#    'IvskySpider.middlewares.IvskyspiderSpiderMiddleware': 543,
#}
用于设置那些middlewares有效
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
DOWNLOADER_MIDDLEWARES = {
    'IvskySpider.middlewares.UserAgentMiddleware': 543,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    # 数字表示优先级 越小越先执行 如果填为none 表示不执行
}
# 哪些pipline可以使用
#ITEM_PIPELINES = {
#    'IvskySpider.pipelines.IvskyspiderPipeline': 300,
#}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值