Redis安装

一.简介

什么是分布式爬虫?
1.默认情况下,scrapy爬虫是单机爬虫,只能在一台电脑上运行,因为爬虫调度器当中的队列queue去重和set集合都是在本机上创建的
其他的电脑无法访问另一台电脑上的内存的内容。
2.分布式爬虫用一个共同的爬虫程序,同时部署到多台电脑上运行。这样就可以提高爬虫速度,实现分布式爬虫。

分布式爬虫的前提:
1.要保证每一台计算机都能够正常的执行scrapy命令,能够启动爬虫。
2.要保证所有的爬虫程序可以访问同一个队列一个set集合。

分布式爬虫的适用范围/要求:
1.分布式爬虫对电脑的性能有一定的要求。
2.分布式爬虫对网速也有一定的要求,电脑星能和网速如果不是很好的话,爬虫效率不如单机爬虫。
注意:并不是任何时候都可以使用分布式爬虫,因为对硬件有要求,小公司可能负担不起

redis数据库的特点:
优点:体积小,使用方便,如果储存数据量比较大的话,启动速度很快,数据库中的数据和内存中的数据可以相互访问。
缺点:从安全性的角度来说,持久化数据可能会崩溃,造成数据丢失。

要实现分布式爬虫,首先要配置服务器主从,配置主从的目的:
1.达到备份的功能,一旦master出现崩溃,而数据库中还有数据,可以将其中的一个slave重新设置主服务器,从而恢复redis的正常运行
2.一个redis服务器负责读写,性能较低,通过主从来减轻一个redis的压力。

redis主从的配置:
redis作为缓存服务器,主要是将数据在内存中进行缓存,但是一台机器的内存和性能是有限的。当对于redis的数据库的数据进行读写量较大的时候,那么一台redis就不能满足需求了。此时,需要将redis部署到多台机器上,用于写入数据的redis,称之为master,
而只负责读取的redis,称之为slave。

redis主从的特点:
1.master只负责写入数据,slave只负责读取数据。
2.当slave创建的时候,会向master发布一个同步的命令,master接收到命令以后,将数据同步给slave。
3.master只能有一个,slave可以有多个。

二.安装redis

  • 下载地址:https://github.com/MSOpenTech/redis/releases
  • Redis 支持 32 位和 64 位。这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis

  • 打开一个 cmd 窗口 使用cd命令切换目录到 C:\redis 运行 redis-server redis.windows.conf 来开启服务。
  • 如果想方便的话,可以把 redis 的路径加到系统的环境变量里。运行之后,会显示如下界面,说明安装成功了:

 三.分布式爬虫配置

  •  打开安装好的redis文件夹,编辑redis.windows.conf文件

 

 

 

  • 打开一个 cmd 窗口 使用cd命令切换目录到 C:\redis 运行 redis-server redis.windows.conf 来开启服务。
  • 提示:使用redis过程中此窗口需要一直开着不能关闭

 

 

  • 主机master再打开一个窗口运行命令
  • redis-cli -h 127.0.0.1 -p 6379
  • set task1 baidu_spider
  • set task2 taobao_spider

从机打开窗口运行命令,可以看到获得了上面创建的文件baidu_spider和taobao_spider,就说明两台电脑连接成功了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值