电商数仓zookeeper

本文详细介绍了如何在三台服务器(h102, h103, h104)上安装和配置Zookeeper集群。步骤包括解压安装包、设置服务器编号、配置zoo.cfg文件、创建启动停止脚本等。在每个服务器上创建myid文件并指定服务器编号,通过集群配置实现服务器间的通信。最后,提供了启动、停止和检查Zookeeper状态的集群操作脚本。

1、安装zookeeper

1.1、解压安装

解压zookeeper安装包到/opt/module/目录下

tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/

修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeeper-3.5.7

mv apache-zookeeper-3.5.7-bin/ zookeeper-3.5.7

1.2、配置服务器编号

在/opt/module/zookeeper-3.5.7/这个目录下创建zkData

mkdir zkData

在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件

vim myid

在文件中添加与server对应的编号。

同步/opt/module/zookeeper-3.5.7目录内容到h103、h104

xsync zookeeper-3.5.7/

同步完成后,分别在h103、h104上修改myid文件中内容为3、4

1.3、配置zoo.cfg文件

重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg

mv zoo_sample.cfg zoo.cfg

打开zoo.cfg文件

vim zoo.cfg

修改数据存储路径配置

dataDir=/opt/module/zookeeper-3.5.7/zkData

增加如下配置

#######################cluster##########################
server.2=h102:2888:3888
server.3=h103:2888:3888
server.4=h104:2888:3888

同步zoo.cfg配置文件

xsync zoo.cfg

配置参数解读

server.A=B:C:D

A是一个数字,表示这个是第几号服务器;

集群模式下配置一个文件myid,这个文件在dataDir目录下,这个文件里面有一个数据就是A的值,Zookeeper启动时读取此文件,拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。

B是这个服务器的地址;

C是这个服务器Follower与集群中的Leader服务器交换信息的端口;

D是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。

1.4、集群操作

在三台服务器上分别启动zookeeper

bin/zkServer.sh start

查看状态

bin/zkServer.sh status

2、集群启动停止脚本

在h102的/home/atguigu/bin目录下创建脚本

vim zk.sh

在脚本中编写如下内容

#!/bin/bash

case $1 in
"start"){
	for i in h102 h103 h104
	do
        echo ---------- zookeeper $i 启动 ------------
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
	done
};;
"stop"){
	for i in h102 h103 h104
	do
        echo ---------- zookeeper $i 停止 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
	done
};;
"status"){
	for i in h102 h103 h104
	do
        echo ---------- zookeeper $i 状态 ------------    
		ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
	done
};;
esac

增加脚本执行权限

chmod +x zk.sh
### 尚硅谷电商数据仓库6.0中的Kafka教程 #### 配置Hadoop与Kafka集成环境 为了实现尚硅谷电商数据仓库6.0中Kafka的相关功能,需先配置好基础运行环境。这包括安装并启动Hadoop集群以及设置Zookeeper服务[^1]。 ```bash # 启动Hadoop集群 start-dfs.sh start-yarn.sh # 启动Zookeeper服务器 zkServer.sh start ``` #### 安装和初始化Kafka 接着,在上述环境中部署Kafka实例,并通过命令行工具验证其正常工作状态: ```bash # 解压下载好的Kafka压缩包到指定目录下 tar -zxvf kafka_2.x-scala_x.xx.tgz -C /opt/ # 修改配置文件server.properties内的监听端口等参数后保存退出 vi config/server.properties # 开启单节点模式下的Broker进程 bin/kafka-server-start.sh config/server.properties & ``` #### 创建主题用于存储推荐系统的消息流 针对具体应用场景——如商品个性化推送——可以新建一个名为`recommender`的主题来承载相应的事件记录[^2]: ```bash ./bin/kafka-topics.sh --create \ --bootstrap-server=localhost:9092 \ --replication-factor=1 \ --partitions=3 \ --topic=recommender ``` #### 使用控制台生产者发送测试消息至目标Topic 利用预打包的脚本快速构建一条简单的消息管道,模拟实际业务场景里产生的行为日志上传过程: ```bash ./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic recommender > {"userId": "u1", "productId":"p1"} > {"userId": "u2", "productId":"p2"} ... ^D ``` #### 构建消费者程序读取来自Kafka的数据源 最后一步则是编写Spark Streaming或其他框架的应用逻辑去消费这些实时流入的消息队列,进而完成后续分析处理任务。这里给出一段Python版伪代码作为参考示例: ```python from pyspark import SparkContext, SQLContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils sc = SparkContext(appName="RecoSysConsumer") ssc = StreamingContext(sc, batchIntervalSeconds) directKafkaStream = KafkaUtils.createDirectStream( ssc, topics=['recommender'], kafkaParams={"metadata.broker.list": 'localhost:9092'} ) parsed = directKafkaStream.map(lambda v: json.loads(v[1])) # 对接收到的数据做进一步加工转换... ssc.start() ssc.awaitTermination() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值