Redisspider的爬虫和scrapy.spider的区别

Redisspider的爬虫和scrapy.spider的区别

Redisspider 分布式爬虫,请求的持久化,去重的持久化

  • 区别

    • 父类不一样,RedisSpider
    • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
    • settings 中多了几行配置
  • 创建爬虫

    • scrapy genspider 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

      1. 让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

RedisCrawlSpider的爬虫和crwalspdier的区别

RedisCrawlSpider 分布式爬虫,请求的持久化,去重的持久化

  • 区别

    • 父类RedisCrawlSpider
    • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
    • settings 中多了几行配置
  • 创建爬虫

    • scrapy genspider -t crawl 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

      1. 让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

crontab使用的方法

  • 分钟 小时 日 月 星期 命令
  • 30 9 8 * * ls #每个月的8号的9:30执行ls命令

在爬虫中使用crontab

    1. 爬虫启动命令写入脚本文件
cd `dirname $0`
scrapy crawl 爬虫名 >> run.log 2>&1
    1. 给脚本添加可执行权限
    • chmod +x run.sh
    1. 把脚本文件添加到crontab的配置中
    • 30 6 * * * /home/python/myspider/run.sh
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值