搭建Spark Standalone模式的集群

该博客详细记录了如何使用SecureCRT登录多台虚拟机,并进行一系列配置操作,包括修改DNS,安装Vim,测试网络连接,设置主机名,配置IP-主机名映射,关闭防火墙,禁用SELinux,实现SSH免密登录。接着在各节点安装JDK,配置环境变量,并通过scp命令分发JDK与环境配置文件到其他节点,确保所有节点的Java环境一致且能正常运行Java程序。

一 利用SecureCRT登录三台虚拟机

对master slave1 slave2执行命令:vi /etc/resolv.conf,修改/etc/resolv.conf文件并添加两个域名服务器(右击对话框选择chat windows,在次点击send chat all sessions可以在对话框内输入的内容同时写到多个虚拟机上面)

执行命令:yum -y install vim 安装vim

测试maser slave1 slave2能否链接外网

查看master slave1 slave2主机名

配置master slave1 slave2虚拟机IP-主机名映射 执行命令:vim /etc/hosts

关闭与禁用master slave1 slave2虚拟机的防火墙

在master slave1 slave2 虚拟机上关闭SeLinux安全机制执行命令:vim /etc/sysconfig/selinux

设置免密登录master slave1 slave2虚拟机免密登录

执行命令:ssh-keygen,生成密钥对

执行命令:ssh-copy-id root@master、slave1 slave2 将公钥拷贝到maste、slave1 slave2 

master

slave1

slave2

master 免密登录

slave1 免密登录

slave2 免密登录

执行命令:yum -y install lrzsz 在master slave1 slave2 虚拟机上安装lrzsr

安装并配置JDK

上传安装包到 /opt

执行tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local,将Java安装包解压到/usr/local

 

执行命令:ls /usr/local,查看解压之后的jdk

执行命令:vim /etc/profile,配置环境变量(JAVA_HOME=/usr/local/jdk1.8.0_231
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH CLASSPATH)

存盘退出,执行命令:source /etc/profile,让配置生效并查看版本

 

 编写一个Java程序 - HelloWorld.java(vim HelloWorld.java

存盘退出后,执行命令:javac HelloWorld.java,编译成字节码文件

执行命令:java HelloWorld

 将master虚拟机上安装的JDK以及环境配置文件分发到slave2虚拟机(执行命令:scp -r $JAVA_HOME root@slave2:$JAVA_HOME

在slave2虚拟机上查看Java是否拷贝成功

 

 在master虚拟机上,执行命令:scp /etc/profile root@slave2:/etc/profile,将环境配置文件分发到slave1虚拟机

 执行命令:source /etc/profile,让配置生效

执行命令:java -version,查看JDK版本

 

将master虚拟机上安装的JDK以及环境配置文件分发到slave1虚拟机(执行命令:scp -r $JAVA_HOME root@slave1:$JAVA_HOME )

 

 在master虚拟机上,执行命令:scp /etc/profile root@slave1:/etc/profile,将环境配置文件分发到slave1虚拟机

在master虚拟机上,执行命令:scp /etc/profile root@slave1:/etc/profile,将环境配置文件分发到slave1虚拟机

在slave1虚拟机上,查看从master虚拟机拷贝过来的配置文件profile

执行命令:source /etc/profile,让配置生效并查看jdk 

 

### 如何搭建配置 Spark Standalone 分布式集群 #### 准备工作 确保所有节点已经正确安装并配置好 Java 和 SSH 无密码登录。对于 Hadoop 的部分,只需要配置 HDFS 相关的服务即可[^2]。 #### 解压软件包 在每台机器上分别解压缩 JDK、Hadoop 及 Spark 安装文件: ```bash tar -zxvf jdk-8u241-linux-x64.tar.gz tar -zxvf hadoop-3.2.2.tar.gz tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz ``` 完成上述操作之后,设置环境变量以便于后续使用这些工具[^5]。 #### 启动 HDFS 服务 由于通常情况下仍然希望利用 HDFS 进行数据存储,因此需要先启动 HDFS: ```bash # 切换至 hadoop 用户并进入 sbin 文件夹执行如下命令来启动 dfs 服务 $HADOOP_HOME/sbin/start-dfs.sh ``` 这一步骤保证了即使不依赖 YARN, 数据层面上依然能够正常运作。 #### 修改 Spark 配置文件 编辑 `conf/spark-env.sh` 来指定必要的环境参数,比如指向 HDFS 日志位置等信息: ```bash SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hdfs-cluster/spark-logs" ``` 此配置允许历史服务器读取位于远程 HDFS 上的日志记录[^4]。 #### 启动 Spark Master 和 Worker 节点 前往 Spark 主节点上的 `/sbin` 目录运行脚本来初始化整个集群: ```bash ./start-all.sh ``` 这条指令将会自动连接其他 worker 节点,并建立起完整的 Spark Standalone 集群架构[^3]。 通过以上步骤就可以成功构建起一个基于 Spark 自带资源管理器的独立分布式计算平台,在这个过程中并不涉及复杂的外部组件集成问题。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值