本文环境配置:
系统=>windows10:64位
工具=>PyCharm:2018.1.4
语言=>Python:3.6
第三方库
datatime
time
scrapy
sched
编写一个脚本,将改脚本放置 爬虫项目 同级目录下
import datetime
import time
from scrapy import cmdline
def spider():
# 把爬虫程序放在这个类里 zhilian_spider 是爬虫的name
cmdline.execute('scrapy crawl zhilian_spider'.split())
# 想几点更新,定时到几点
def main(h=17, m=54):
while True:
now = datetime.datetime.now()
# print(now.hour, now.minute)
if now.hour == h and now.minute == m:
spider()
# 每隔60秒检测一次
time.sleep(60)
if __name__ == '__main__':
main()
或者加入定时任务模块:
# 表示2017年3月22日17时19分07秒执行该程序
# sched.add_job(crawl_job, 'cron', year=2017, month=3, day=22, hour=17, minute=19, second=7)
# 表示任务在6,7,8,11,12月份的第三个星期五的00:00,01:00,02:00,03:00 执行该程序
# sched.add_job(crawl_job, 'cron', month='6-8,11-12', day='3rd fri', hour='0-3')
# 表示从星期一到星期五5:30(AM)直到2014-05-30 00:00:00
# sched.add_job(crawl_job(), 'cron', day_of_week='mon-fri', hour=5, minute=30, end_date='2014-05-30')
# 表示每5秒执行该程序一次,相当于interval 间隔调度中seconds = 5
# sched.add_job(crawl_job, 'cron', second='*/5')