搭建Spark集群

构建Hadoop与Spark分布式集群：从零开始实战教程

原创已于 2022-03-15 10:47:51 修改 · 3.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #big data #hadoop

于 2022-03-14 23:06:04 首次发布

本章将在上一章搭建的虚拟机上进行搭建。

目录

一、准备工作

(1)软件准备

（2）利用SecureCRT登录四台虚拟机。

（3）设置免密登录

<1>配置ip-主机名映射

<2>生成公钥

（4）安装lrzsz

三、安装jdk

（1.）在master上安装配置jdk

（2）将master虚拟机上安装的JDK以及环境配置文件分发到从节点

四、安装hadoop

(2)、配置hadoop环境变量

(3)配置hadoop环境配置文件 - hadoop-env.sh

（4）配置核心配置文件 core-site.xml

（5）配置文件 - hdfs-site.xml

（6）复制模板，配置文件 mapred-site.xml

（7）配置文件 - yarn-site.xml

(8)编辑slaves文件（定名分）

(9)将master虚拟机上的hadoop分发到从节点（以slave01为例）

（10）在master虚拟机上格式化名称节点

（11）启动与关闭Hadoop集群

（12）查看hadoop集群的WebUI界面

五、安装配置Spark Standalone模式的集群

(2)编辑spark环境配置文件 - spark-env.sh

(3)从节点上安装配置Spark(slave01为例)

<1>把master虚拟机上的spark安装目录分发给slave1虚拟机

<2>在slave1虚拟机上让spark环境配置文件生效

（5）访问Spark的WebUI

一、准备工作

(1)软件准备

<1>将hadoop、jdk和spark软件下载到本机。

<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。

（2）利用SecureCRT登录四台虚拟机。

添加域名解析

ping 外网

关闭防火墙

修改主机名

关闭SeLinux安全机制

以上在从节点也要配置。

（3）设置免密登录

<1>配置ip-主机名映射

打开交互窗口(多窗口执行统一命令)

输入命令回车

逐个修改

<2>生成公钥

一直回车

分发公钥

同理将公钥分发给从节点

（4）安装lrzsz

执行命令：yum -y install lrzsz

三、安装jdk

（1.）在master上安装配置jdk

转移安装包

执行 tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local 解压到/usr/local

执行命令：vim /etc/profile，配置环境变量

执行以下命令使配置生效，并查看java版本

（2）将master虚拟机上安装的JDK以及环境配置文件分发到从节点

分发jdk（以slave01为例）

查看成功与否

分发环境配置文件

执行命令：source /etc/profile，让配置生效

查看jdk版本

同理完成其他从节点

四、安装hadoop

(1）、

利用rz命令上传hadoop-2.7.1.tar.gz

执行命令：tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local解压到/usr/local

(2)、配置hadoop环境变量

执行命令：vim /etc/profile

执行命令：source /etc/profile，让配置生效

(3)配置hadoop环境配置文件 - hadoop-env.sh

进入hadoop配置目录

执行命令：vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231

export HADOOP_HOME=/usr/local/hadoop-2.7.1

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

执行命令source hadoop-env.sh，让配置生效

查看三个配置的三个环境变量

（4）配置核心配置文件 core-site.xml

执行命令：vim core-site.xml

<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.1/tmp</value>
</property>
</configuration>

（5）配置文件 - hdfs-site.xml

执行命令：vim hdfs-site.xml

（6）复制模板，配置文件 mapred-site.xml

执行命令：cp mapred-site.xml.template mapred-site.xml

执行命令：vim mapred-site.xml

（7）配置文件 - yarn-site.xml

执行命令：vim yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

(8)编辑slaves文件（定名分）

通过slaves文件定义从节点

执行命令：vim slaves

(9)将master虚拟机上的hadoop分发到从节点（以slave01为例）

执行命令：scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME

分发环境配置文件

执行命令：scp /etc/profile root@slave01:/etc/profile

切换到slave1虚拟机，执行命令：source /etc/profile

`（10）`在master虚拟机上格式化名称节点

在master虚拟机上，执行命令：hdfs namenode -format

执行命令：start-dfs.sh，启动hdfs服务

（11）启动与关闭Hadoop集群

查看master和从节点的进程

执行命令：start-yarn.sh，启动YARN服务

执行命令jps查看master虚拟机的进程，只有NameNode、SecondaryNameNode和ResourceManager

（12）查看hadoop集群的WebUI界面

在hw_win7虚拟机浏览器访问http://192.168.1.100:50070

查看数据节点信息

在HDFS上创建一个目录BigData，执行命令：hadoop fs -mkdir /BigData

停止hadoop服务

五、安装配置Spark Standalone模式的集群

（1）

利用rz将hw_win7虚拟机上的spark安装包上传到master虚拟机/opt目录

将spark安装包解压到master虚拟机指定目录

执行命令：tar -zxvf spark-2.4.4-bin-hadoop2.7..tgz -C /usr/local

执行命令：source /etc/profile，让配置生效

查看spark安装目录（bin、sbin和conf三个目录很重要）

(2)编辑spark环境配置文件 - spark-env.sh

创建slaves文件，添加从节点

(3)从节点上安装配置Spark(slave01为例)

<1>把master虚拟机上的spark安装目录分发给slave1虚拟机

<2>在slave1虚拟机上让spark环境配置文件生效

在slave1虚拟机上，执行命令：source /etc/profile

执行命令：source spark-env.sh

(4)

启动hadoop的dfs服务

在master虚拟机上执行命令：start-dfs.sh

启动Spark集群

（5）访问Spark的WebUI

在hw_win7虚拟机上，访问http://192.168.177.100:8080

启动Scala版Spark Shell

执行命令：spark-shell --master spark://master:7077

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。