scrapy爬虫定时设置
在启动文件设置一个while循环,然后创建两个文件,一个存爬虫续爬需要的数据,一个判断爬虫是否运行的标记。
运行的时候判断爬虫运行标记文件2是否存在,
如果不存在,使用isExsit = os.path.isdir(文件1)判断续爬文件1
如果存在就用 shutil.rmtree删除目录上所有文件,
不存在就输出没有爬虫
cmdline启动爬虫文件
如果运行文件存在:输出文字文件正在运行
每10秒停顿,然后定个变量记录时间,一旦超出时间,就跳出while。
from scrapy import cmdline
import datetime
import time
import shutil
import os
#爬虫任务定时设置
#这是为爬虫能够续爬而创建的目录。存储续爬需要的数据
recoderDir = r"C:/Users/stawind/Desktop/spider/cninfospider1"
#判断爬虫是否在运行的标记
checkFile = "C:/Users/stawind/Desktop/spider/isRunning.txt"
startTime = datetime.datetime.now()
print(f"startTime={startTime}")
i = 0
moniter = 0
while True:
isRunning = os.path.isfile(checkFile)
if not isRunning:
#在爬虫启动之前处理一些事情,