常见的scrapy配置

最新推荐文章于 2024-10-07 22:21:03 发布

原创最新推荐文章于 2024-10-07 22:21:03 发布 · 477 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #服务器 #javascript

本文介绍了Scrapy框架中的一些关键配置，包括允许错误状态响应码（如403），启用请求过滤，设置重试机制（如针对429,404,403状态码），默认的下载中间件配置以及下载超时和日志等级设定。这些配置有助于优化爬虫的稳定性和效率。

1.常见的scrapy配置

1.允许错误状态响应码通过

HTTPERROR_ALLOWED_CODES = [403]   #上面报的是403，就把403加入。

2.scrapy启用过滤

yield scrapy.Request(url=url, cookies=self.cookies, callback=self.parse, dont_filter=True)
# dont_filter=True时不过滤重复链接,默认是true

3.scrapy重试(retry)

RETRY_ENABLED = True  #打开重试开关
RETRY_TIMES = 3  #重试次数
RETRY_HTTP_CODES = [429,404,403]  #重试

4.scrapy默认打开的settings

DOWNLOADER_MIDDLEWARES_BASE = {
    # Engine side
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
    # Downloader side
}

5.下载超时

DOWNLOAD_TIME=180   # 最大下载时间180s

6.scrapy日志等级

CRITICAL：严重错误
ERROR：一般错误
WARNING：警告
INFO: 一般信息
DEBUG：调试信息