scrapy中start_time或者finish_time中时区问题处理

原创已于 2022-09-26 15:16:40 修改 · 585 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #爬虫 #python

于 2022-09-26 15:14:06 首次发布

python 同时被 2 个专栏收录

9 篇文章

订阅专栏

爬虫

6 篇文章

订阅专栏

本文介绍如何解决Scrapy爬虫中start_time和finish_time与其他日志时间时区不一致的问题，通过自定义扩展类实现统一时区。

当我们运行一个scrapy爬虫时，最终统计结果中的“start_time”和“finish_time”时间的时区和日志中其他时间的时区是不同的，如下图：

显然，“start_time”和“finish_time”使用的是utc时间，而其他的log日志使用的是本机时间或者说是本地时间，即东八区时间。

那如何处理这个问题呢？首先看下出现这个问题的原因，根据scrapy中扩展（extensions）文件源码中的“CoreStats”类（scrapy.extensions.corestats.CoreStats）可知：

"""
Extension for collecting core stats like items scraped and start/finish times
"""
from datetime import datetime

from scrapy import signals


class CoreStats:

    def __init__(self, stats):
        self.stats = stats
        self.start_time = None

    @classmethod
    def from_crawler(cls, crawler):
        o = cls(crawler.stats)
        crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(o.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(o.item_scraped, signal=signals.item_scraped)
        crawler.signals.connect(o.item_dropped, signal=signals.item_dropped)
        crawler.signals.connect(o.response_received, signal=signals.response_received)
        return o

    def spider_opened(self, spider):
        self.start_time = datetime.utcnow()
        self.stats.set_value('start_time', self.start_time, spider=spider)

    def spider_closed(self, spider, reason):
        finish_time = datetime.utcnow()
        elapsed_time = finish_time - self.start_time
        elapsed_time_seconds = elapsed_time.total_seconds()
        self.stats.set_value('elapsed_time_seconds', elapsed_time_seconds, spider=spider)
        self.stats.set_value('finish_time', finish_time, spider=spider)
        self.stats.set_value('finish_reason', reason, spider=spider)

    def item_scraped(self, item, spider):
        self.stats.inc_value('item_scraped_count', spider=spider)

    def response_received(self, spider):
        self.stats.inc_value('response_received_count', spider=spider)

    def item_dropped(self, item, spider, exception):
        reason = exception.__class__.__name__
        self.stats.inc_value('item_dropped_count', spider=spider)
        self.stats.inc_value(f'item_dropped_reasons_count/{reason}', spider=spider)

第26行的“self.start_time = datetime.utcnow()”和第30行的“finish_time = datetime.utcnow()”就是出现以上问题的原因，这两处的时间均用的是utc时间。

既然知道了原因，那我们就看解决方法吧，解决方法的思路就是禁用“CoreStats”扩展类，同时自己添加新的扩展类并启用。下面就是具体的解决方法。

1. 首先在scrapy项目路径下新建一个“extensions.py”文件，和“pipelines.py”文件在相同文件夹下，如下图：

2. 在“extensions.py”文件中添加以下代码，其中“TestCoreStats”类继承于“CoreStats”类，然后我们重写（覆盖）了父类的“spider_opened”和“spider_closed”方法，然后修改了里面的时间。因为此处的使用了很多个时间变量，请根据自己的情况删除无用时间的变量或者更改输出名。

from scrapy.extensions.corestats import CoreStats
from datetime import datetime, timedelta
import pytz


class TestCoreStats(CoreStats):
    """
    此扩展类的作用是修改日期为本地时区日期，特别注意，这些时间均依赖于当前系统时间，即需要当前系统时间准确。
    日志中显示的时间也是依赖于当前系统时间。
    """
    def spider_opened(self, spider):
        self.start_time = datetime.utcnow()  # utc时间
        self.start_time_now = datetime.now()  # 当前系统时间
        self.start_time_zone = datetime.now(tz=pytz.timezone('Asia/Shanghai'))  # 选择指定时区时间
        self.start_time_delta = self.start_time + timedelta(hours=8)  # 根据时区对utc对时间计算，比如北京时间是东八区，即为utc时间加8小时
        self.stats.set_value('start_time', self.start_time, spider=spider)
        self.stats.set_value('start_time_now', self.start_time_now, spider=spider)
        self.stats.set_value('start_time_zone', self.start_time_zone, spider=spider)
        self.stats.set_value('start_time_delta', self.start_time_delta, spider=spider)

    def spider_closed(self, spider, reason):
        finish_time = datetime.utcnow()  # utc时间
        finish_time_now = datetime.now()  # 当前系统时间
        finish_time_zone = datetime.now(tz=pytz.timezone('Asia/Shanghai'))  # 选择指定时区时间
        finish_time_delta = finish_time + timedelta(hours=8)  # 根据时区对utc对时间计算，比如北京时间是东八区，即为utc时间加8小时
        elapsed_time = finish_time - self.start_time
        elapsed_time_seconds = elapsed_time.total_seconds()
        self.stats.set_value('elapsed_time_seconds', elapsed_time_seconds, spider=spider)
        self.stats.set_value('finish_time', finish_time, spider=spider)
        self.stats.set_value('finish_time_now', finish_time_now, spider=spider)
        self.stats.set_value('finish_time_zone', finish_time_zone, spider=spider)
        self.stats.set_value('finish_time_delta', finish_time_delta, spider=spider)
        self.stats.set_value('finish_reason', reason, spider=spider)

3. 在“settings.py”文件里启用“TestCoreStats”扩展类，并禁用“CoreStats”扩展类，如下：

EXTENSIONS = {
    'scrapy.extensions.corestats.CoreStats': None,
    'test_scrapy.extensions.TestCoreStats': 0
}

最终，我们来看看效果。

此时就可以看到，我们新增的几个时间“_delta” 、“_now”、“_zone”的时间都是和图上日志时间是相同时区的了，所以根据具体情况将“start_time”和“finish_time”变量的值进行更改吧。