scrap使用要点

最新推荐文章于 2022-03-07 15:53:35 发布

xiami133

最新推荐文章于 2022-03-07 15:53:35 发布

阅读量1k

点赞数

本文链接：https://blog.youkuaiyun.com/sinat_33384251/article/details/110220190

版权

本文详细介绍了Scrapy的Downloader Middleware，包括其基础功能、内置Middleware的作用，以及如何自定义Middleware。重点讲解了核心方法，如重试Middleware的工作原理，以及如何在`settings.py`中配置Middleware以实现特定功能，如设置下载超时、处理异常等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需要说明的是，Scrapy其实已经提供了许多Downloader Middleware，比如负责失败重试、自动重定向等功能的Middleware，它们被DOWNLOADER_MIDDLEWARES_BASE变量所定义。

DOWNLOADER_MIDDLEWARES_BASE变量的内容如下所示：

{
    'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
    'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
    'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
    'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
    'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
    'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
    'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
    'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
    'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
    'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}

这是一个字典格式，字典的键名是Scrapy内置的Downloader Middleware的名称，键值代表了调用的优先级，优先级是一个数字，数字越小代表越靠近Scrapy引擎，数字越大代表越靠近Downloader，数字小的Downloader Middleware会被优先调用。

如果自己定义的Downloader Middleware要添加到项目里，DOWNLOADER_MIDDLEWARES_BASE变量不能直接修改。Scrapy提供了另外一个设置变量DOWNLOADER_MIDDLEWARES，我们直接修改这个变量就可以添加自己定义的Downloader Middleware，以及禁用DOWNLOADER_MIDDLEWARES_BASE里面定义的Downloader Middleware。下面我们具体来看看Downloader Middleware的使用方法。

Scrapy内置的Downloader Middleware为Scrapy提供了基础的功能，但在项目实战中我们往往需要单独定义Downloader Middleware。不用担心，这个过程非常简单，我们只需要实现某几个方法即可。

每个Downloader Middleware都定义了一个或多个方法的类，核心的方法有如下三个。

    process_request(request, spider)。
    process_response(request, response, spider)。
    process_exception(request, exception, spider)。

Scrapy框架的使用之Downloader Middleware的用法

重试 middleware

def process_exception(self, request, exception, spider):
        if isinstance(exception, self.EXCEPTIONS_TO_RETRY) and not request.meta.get('dont_retry', False):
            # 删除该代理
            #self.delete_proxy(request.meta.get('proxy', False))
            time.sleep(random.randint(3, 5))
            print('2中间件处 发现请求异常，需要重复请求！')

            return self._retry(request, exception, spider)

1、我们都知道scrapy的基本请求步骤是，首先执行父类里面（scrapy.Spider）里面的start_requests方法，

2、然后start_requests方法也是取拿我们设置的start_urls变量里面的url地址

3、最后才执行make_requests_from_url方法，并只传入一个url变量

那么，我们就可以重写make_requests_from_url方法，从而直接调用scrapy.Request()方法，我们简单的了解一下里面的几个参数：

1、url=url,其实就是最后start_requests()方法里面拿到的url地址

2、meta这里我们只设置了一个参数，download_timeout:10，作用就是当第一次发起请求的时候，等待10秒钟，如果没有请求成功的话，就会直接执行download_middleware里面的方法，我们下面介绍。

3、callback回调函数，其实就是本次的本次所有操作完成后执行的操作，注意，这里可不是说执行完上面所有操作后，再执行这个操作，比如说请求了一个url，并且成功了，下面就会执行这个方法。

4、dont_filter=False，这个很重要，有人说过不加的话默认就是False，但是亲测必须得加，作用就是scrapy默认有去重的方法，等于False的话就意味着不参加scrapy的去重操作。亲测，请求一个页面，拿到第一个页面后，抓取想要的操作后，第二页就不行了，只有加上它才可以。

def make_requests_from_url(self,url):
        self.logger.debug('Try first time')
        return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)

其实，还可以把scrapy的运行结果设置不要打印到终端，当有报错直接抛出来即可。
在编辑器中运行，直接在setting.py 文件中添加以下代码：

# setting.py 文件中添加以下代码，即可去掉打印结果
 
LOG_LEVEL="WARNING"

在编辑器中运行，在setting.py 文件中添加以下5行代码：

# setting.py 文件中添加以下5行代码，去掉打印结果，
 
LOG_FILE = "spider.log"
LOG_STDOUT = True
 
FEED_URI='output.csv'
FEED_FORMAT='csv'
FEED_EXPORT_ENCODING='ansi'

如何在scrapy中捕获并处理各种异常修改重试中间件源代码

CrawlSpider