需要说明的是,Scrapy其实已经提供了许多Downloader Middleware,比如负责失败重试、自动重定向等功能的Middleware,它们被DOWNLOADER_MIDDLEWARES_BASE变量所定义。
DOWNLOADER_MIDDLEWARES_BASE变量的内容如下所示:
{
'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
}
这是一个字典格式,字典的键名是Scrapy内置的Downloader Middleware的名称,键值代表了调用的优先级,优先级是一个数字,数字越小代表越靠近Scrapy引擎,数字越大代表越靠近Downloader,数字小的Downloader Middleware会被优先调用。
如果自己定义的Downloader Middleware要添加到项目里,DOWNLOADER_MIDDLEWARES_BASE变量不能直接修改。Scrapy提供了另外一个设置变量DOWNLOADER_MIDDLEWARES,我们直接修改这个变量就可以添加自己定义的Downloader Middleware,以及禁用DOWNLOADER_MIDDLEWARES_BASE里面定义的Downloader Middleware。下面我们具体来看看Downloader Middleware的使用方法。
Scrapy内置的Downloader Middleware为Scrapy提供了基础的功能,但在项目实战中我们往往需要单独定义Downloader Middleware。不用担心,这个过程非常简单,我们只需要实现某几个方法即可。
每个Downloader Middleware都定义了一个或多个方法的类,核心的方法有如下三个。
process_request(request, spider)。
process_response(request, response, spider)。
process_exception(request, exception, spider)。
Scrapy框架的使用之Downloader Middleware的用法
重试 middleware
def process_exception(self, request, exception, spider):
if isinstance(exception, self.EXCEPTIONS_TO_RETRY) and not request.meta.get('dont_retry', False):
# 删除该代理
#self.delete_proxy(request.meta.get('proxy', False))
time.sleep(random.randint(3, 5))
print('2中间件处 发现请求异常,需要重复请求!')
return self._retry(request, exception, spider)
1、我们都知道scrapy的基本请求步骤是,首先执行父类里面(scrapy.Spider)里面的start_requests方法,
2、然后start_requests方法也是取拿我们设置的start_urls变量里面的url地址
3、最后才执行make_requests_from_url方法,并只传入一个url变量
那么,我们就可以重写make_requests_from_url方法,从而直接调用scrapy.Request()方法,我们简单的了解一下里面的几个参数:
1、url=url,其实就是最后start_requests()方法里面拿到的url地址
2、meta这里我们只设置了一个参数,download_timeout:10,作用就是当第一次发起请求的时候,等待10秒钟,如果没有请求成功的话,就会直接执行download_middleware里面的方法,我们下面介绍。
3、callback回调函数,其实就是本次的本次所有操作完成后执行的操作,注意,这里可不是说执行完上面所有操作后,再执行这个操作,比如说请求了一个url,并且成功了,下面就会执行这个方法。
4、dont_filter=False,这个很重要,有人说过不加的话默认就是False,但是亲测必须得加,作用就是scrapy默认有去重的方法,等于False的话就意味着不参加scrapy的去重操作。亲测,请求一个页面,拿到第一个页面后,抓取想要的操作后,第二页就不行了,只有加上它才可以。
def make_requests_from_url(self,url):
self.logger.debug('Try first time')
return scrapy.Request(url=url,meta={'download_timeout':10},callback=self.parse,dont_filter=False)
其实,还可以把scrapy的运行结果设置不要打印到终端,当有报错直接抛出来即可。
在编辑器中运行,直接在setting.py 文件中添加以下代码:
# setting.py 文件中添加以下代码,即可去掉打印结果
LOG_LEVEL="WARNING"
在编辑器中运行,在setting.py 文件中添加以下5行代码:
# setting.py 文件中添加以下5行代码,去掉打印结果,
LOG_FILE = "spider.log"
LOG_STDOUT = True
FEED_URI='output.csv'
FEED_FORMAT='csv'
FEED_EXPORT_ENCODING='ansi'
如何在scrapy中捕获并处理各种异常 修改重试中间件源代码
CrawlSpider