scrapy定时爬虫的思路

scrapy爬虫定时设置
        在启动文件设置一个while循环,然后创建两个文件,一个存爬虫续爬需要的数据,一个判断爬虫是否运行的标记。
        运行的时候判断爬虫运行标记文件2是否存在,
                如果不存在,使用isExsit = os.path.isdir(文件1)判断续爬文件1
                        如果存在就用 shutil.rmtree删除目录上所有文件,

                        不存在就输出没有爬虫
               cmdline启动爬虫文件

       如果运行文件存在:输出文字文件正在运行

       每10秒停顿,然后定个变量记录时间,一旦超出时间,就跳出while。

from scrapy import cmdline
import datetime
import time
import shutil
import os
#爬虫任务定时设置

#这是为爬虫能够续爬而创建的目录。存储续爬需要的数据
recoderDir = r"C:/Users/stawind/Desktop/spider/cninfospider1"
#判断爬虫是否在运行的标记
checkFile = "C:/Users/stawind/Desktop/spider/isRunning.txt"

startTime = datetime.datetime.now()
print(f"startTime={startTime}")

i = 0
moniter = 0

while True:
    isRunning = os.path.isfile(checkFile)
    if not isRunning:
        #在爬虫启动之前处理一些事情,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值