spark standlone 集群离线安装

原创

于 2025-07-04 14:11:11 发布 · 909 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

环境: centos7

安装计划

为最轻量化实现部署，安装不依赖CDH，只安装大数据以及做大数据处理必须的组件

安装 java
安装 scala
安装 zookeeper
安装 kafka
安装 spark

安装实施

安装java

查看系统架构

uname -m
x86_64

根据系统架构下载对应的jdk, 要注意 64位的是下面两个，x86 是 32 位的
放到服务器上，解压并配置

# 解压
tar -zxvf jdk-8u441-linux-x64.tar.gz

# 创建软连接，之前有软连接的可以删掉
cd /usr/bin
rm java
ln -s /home/demo/tools/jdk1.8.0_441/bin/java java

# 配置 JAVA_HOME
vim ~/.bashrc
export JAVA_HOME=/home/demo/tools/jdk1.8.0_441
export PATH=$JAVA_HOME/bin:$PATH

source ~/.bashrc

# 验证 
java -version
javac -version

安装 zookeeper

官网下载，注意下二进制包，这样就不用编译了，另外版本需要和kafka的版本匹配，这里下载 apache-zookeeper-3.5.6-bin.tar.gz
配置修改

# zookeeper 设置为集群，需要修改的地方: 日志目录、数据目录

# 1.修改解压包名称（直观区分） 
mv apache-zookeeper-3.5.5-bin zk 

# 2.新建data，logs 目录来存放数据和日志 
cd zk 
mkdir data logs 

# 3.进入conf，将zoo_sample.cfg复制重命名zoo.cfg 
cd conf 
cp zoo_sample.cfg zoo.cfg 

# 4.修改conf下zoo.cfg 
# ① 修改：dataDir=/usr/local/zookeeper-cluster/zk/data 
# ② 添加：dataLogDir=/usr/local/zookeeper-cluster/zk/logs 
# ③ clientPort=2181【clientPort是客户端的请求端口】 
# ④ 在zoo.cfg文件末尾追加 server.1=10.1.240.150:2888:3888 server.2=10.1.240.151:2888:3888 server.3=10.1.240.152:2888:3888
vi zoo.cfg  
server.1=10.1.240.150:2888:3888 
server.2=10.1.240.151:2888:3888 
server.3=10.1.240.152:2888:3888

# 5.在zk的data目录下创建一个myid文件，内容为1，每一台的 myid 不一样，可以依次设置为 1, 2, 3
cd ../data/ 
echo 1 > myid

启动及验证
集群所有配置都修改完后启动

# 进入 bin 目录
cd ../zookeeper/bin
./zkServer.sh start

# 查看启动状态
./zkServer.sh status

设置开机启动

vim /etc/systemd/system/zookeeper.service

# 加入下面内容
[Unit]
Description=Apache ZooKeeper
After=network.target

[Service]
Type=forking
User=root
Group=root
ExecStart=/home/demo/bigdata/apache-zookeeper-3.5.6-bin/bin/zkServer.sh start
ExecReload=/home/demo/bigdata/apache-zookeeper-3.5.6-bin/bin/zkServer.sh restart
ExecStop=/home/demo/bigdata/apache-zookeeper-3.5.6-bin/bin/zkServer.sh stop
Restart=on-abnormal

[Install]
WantedBy=multi-user.target

# 停止当前的zookeeper
/home/demo/bigdata/apache-zookeeper-3.5.6-bin/bin/zkServer.sh stop

# 使用systemctl启动，并设置开机自启
systemctl start zookeeper
systemctl enable zookeeper

安装kafka

官网下载，注意下二进制包，这样就不用编译了，下载的版本需要和zookeeper匹配，这里下载 kafka_2.12-2.5.1.tgz
配置修改

cd /home/demo/bigdata/kafka_2.12-2.5.1/config
vim server.properties

# 修改必须处理的配置
broker.id=1 # 设置 broker.id 每个节点不一样，按顺序来就可以
listeners=PLAINTEXT://172.16.150.154:9092 # 修改为本机地址 每个节点不一样
log.dirs=/Data/kafka-logs # 数据目录，kafka-logs会自动采集 
zookeeper.connect=172.16.150.154:2181,172.16.150.155:2181,172.16.150.156:2181  # zokeeper集群地址，以","为分割其他的不用改

# 其它的配置根据需要调整

启动及验证

# 启动 后台运行
./kafka-server-start.sh -daemon ../config/server.properties

# 创建一个测试 topic，验证是否搭建成功
./kafka-topics.sh --create --topic test-tpc --partitions 3 --replication-factor 2 --bootstrap-server 192.168.12.113:9092
# 查看主题详情
./kafka-topics.sh --describe --topic test-tpc --bootstrap-server 192.168.12.113:9092

创建快捷方式
设置开机启动

vim /etc/systemd/system/kafka.service

# 加入下面的内容
[Unit]
Description=Apache Kafka
After=network.target zookeeper.service

[Service]
Type=simple
User=root
Group=root
ExecStart=/home/demo/bigdata/kafka_2.12-2.5.1/bin/kafka-server-start.sh /home/demo/bigdata/kafka_2.12-2.5.1/config/server.properties 
ExecStop

最低0.47元/天解锁文章