scrapy定时爬虫的思路

最新推荐文章于 2024-06-28 15:39:28 发布

范之度

最新推荐文章于 2024-06-28 15:39:28 发布

阅读量575

点赞数

分类专栏： python 文章标签： scrapy 爬虫 python

本文链接：https://blog.youkuaiyun.com/fan13938409755/article/details/125963355

版权

scrapy爬虫定时设置
在启动文件设置一个while循环，然后创建两个文件，一个存爬虫续爬需要的数据，一个判断爬虫是否运行的标记。
运行的时候判断爬虫运行标记文件2是否存在，
如果不存在，使用isExsit = os.path.isdir(文件1)判断续爬文件1
如果存在就用 shutil.rmtree删除目录上所有文件，

不存在就输出没有爬虫
cmdline启动爬虫文件

如果运行文件存在：输出文字文件正在运行

每10秒停顿，然后定个变量记录时间，一旦超出时间，就跳出while。

from scrapy import cmdline
import datetime
import time
import shutil
import os
#爬虫任务定时设置

#这是为爬虫能够续爬而创建的目录。存储续爬需要的数据
recoderDir = r"C:/Users/stawind/Desktop/spider/cninfospider1"
#判断爬虫是否在运行的标记
checkFile = "C:/Users/stawind/Desktop/spider/isRunning.txt"

startTime = datetime.datetime.now()
print(f"startTime={startTime}")

i = 0
moniter = 0

while True:
    isRunning = os.path.isfile(checkFile)
    if not isRunning:
        #在爬虫启动之前处理一些事情，