背景:
有一个爬虫服务,需要定时从公开网站上拉取一些数据,为了避免被识别为爬虫(防爬虫的识别需要根据很多特征,时间仅仅是其中一个维度),需要在指定的时间内,随机生成一个时间爬取
脚本是python写的,直接上代码...
import logging
import traceback
from datetime import datetime
from apscheduler.schedulers.background import BackgroundScheduler
scheduler = BackgroundScheduler()
def spider_schedule():
# spider_schedule是job_id
scheduler.remove_job('spider_schedule')
try:
print 'spider start... ', datetime.now().strftime('%Y-%m-%d %X')
#--------自己的业务代码-------
pass
#---------------------------
print 'spider end... ', datetime.now().strftime('%Y-%m-%d %X')
except Exception as e:
print traceback.format_exc(e)
finally:
interval_minutes = random.randint(60, 120) # 1-120分钟随机选一个时间
interval_seconds = random.randint(1, 60) # 1~60秒随机选一个时间
scheduler.add_job(spider_schedule, 'interval', minutes=interval_minutes, seconds=interval_seconds, id='spider_schedule')
if __name__ == '__main__':
scheduler.add_job(spider_schedule, 'interval', seconds=10, id='spider_schedule')
scheduler.start()
Python资源共享群:484031800
本文介绍了一种使用Python实现的爬虫服务,该服务通过在指定时间内随机选择爬取时间来避免被目标网站识别为爬虫。利用apscheduler库的BackgroundScheduler功能,实现了定时任务的随机间隔调度。
560

被折叠的 条评论
为什么被折叠?



