爬虫settings配置信息整理

本文分享了动态爬虫的配置技巧,包括禁用robots.txt规则、设置请求头、启用爬虫和下载中间件、配置SPLASH_URL、去重类及缓存存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫学习之配置信息整理

最近学习了爬虫与反爬虫技术,下面将自己的学习经验分享出来供大家参考!
爬虫的配置信息主要在setings.py文件中,主要分为

动态爬虫配置分布式爬虫配置

此篇先分享动态爬虫配置(注意以下配置信息都在settings.py文件中进行)

  1. 在settings中有一条默认开启语句,表示遵循robots.txt规则。在这里我们应该将他置为False(具体的robots。txt原则请点击此链接

ROBOTSTXT_OBEY = True
更改为:
ROBOTSTXT_OBEY = False

2.打开请求头(42行左右)并添加请求头信息(注意uesr-Agent为请求头信息,我使用的是谷歌浏览器,不同浏览器的请求头不一样)

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}

3.打开爬虫中间件(50行左右)
添加 :‘scrapy_splash.SplashDeduplicateArgsMiddleware’: 100,

SPIDER_MIDDLEWARES = {
   'spider4.middlewares.Spider4SpiderMiddleware': 543,
   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

4.打开下载中间件(55行左右)添加相应配置信息(注意我的代码中spider4为爬虫项目名,在不同项目中应修改为不同名称)

DOWNLOADER_MIDDLEWARES = {
   'spider4.middlewares.Spider4DownloaderMiddleware': 543,
   'scrapy_splash.SplashCookiesMiddleware': 723,
   'scrapy_splash.SplashMiddleware': 725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
   'spider4.middlewares.ProxiesMiddlewares':820,
}

5.添加SPLASH_URL配置(在本地运行,所以为本地链接地址)

SPLASH_URL = 'http://127.0.0.1:8050'

6.添加去重类配置信息:

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

7.最后设置一个Cache存储信息

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

博客新手,请多多指教在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值