本章将在上一章搭建的虚拟机上进行搭建。
目录
(2)将master虚拟机上安装的JDK以及环境配置文件分发到从节点
(3)配置hadoop环境配置文件 - hadoop-env.sh
(9)将master虚拟机上的hadoop分发到从节点(以slave01为例)
(2)编辑spark环境配置文件 - spark-env.sh
<1>把master虚拟机上的spark安装目录分发给slave1虚拟机
一、准备工作
(1)软件准备
<1>将hadoop、jdk和spark软件下载到本机。
<2>本机通过远程连接连接win7虚拟机。连接成功后直接复制软件粘贴到win7。

(2)利用SecureCRT登录四台虚拟机。

添加域名解析
![]()

ping 外网
![]()
关闭防火墙

修改主机名
![]()

关闭SeLinux安全机制
![]()

以上在从节点也要配置。
(3)设置免密登录
<1>配置ip-主机名映射
打开交互窗口(多窗口执行统一命令)


输入命令回车

逐个修改

<2>生成公钥

一直回车

分发公钥


同理将公钥分发给从节点
(4)安装lrzsz
执行命令:yum -y install lrzsz


三、安装jdk
(1.)在master上安装配置jdk
转移安装包

执行 tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local 解压到/usr/local
![]()
执行命令:vim /etc/profile,配置环境变量
![]()

执行以下命令使配置生效,并查看java版本

(2)将master虚拟机上安装的JDK以及环境配置文件分发到从节点
分发jdk(以slave01为例)
![]()
查看成功与否

分发环境配置文件

执行命令:source /etc/profile,让配置生效
查看jdk版本

同理完成其他从节点
四、安装hadoop
(1)、
利用rz命令上传hadoop-2.7.1.tar.gz

执行命令:tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local解压到/usr/local
![]()

(2)、 配置hadoop环境变量
执行命令:vim /etc/profile

执行命令:source /etc/profile,让配置生效
(3)配置hadoop环境配置文件 - hadoop-env.sh
进入hadoop配置目录

执行命令:vim hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-2.7.1
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
执行命令source hadoop-env.sh,让配置生效
查看三个配置的三个环境变量

(4) 配置核心配置文件 core-site.xml
执行命令:vim core-site.xml

<configuration>
<!--指定hdfs的master-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<!--指定文件的存放目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.1/tmp</value>
</property>
</configuration>
(5)配置文件 - hdfs-site.xml
执行命令:vim hdfs-site.xml

(6)复制模板,配置文件 mapred-site.xml
执行命令:cp mapred-site.xml.template mapred-site.xml
执行命令:vim mapred-site.xml
(7) 配置文件 - yarn-site.xml
执行命令:vim yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
(8)编辑slaves文件(定名分)
通过slaves文件定义从节点
执行命令:vim slaves

(9)将master虚拟机上的hadoop分发到从节点(以slave01为例)
执行命令:scp -r $HADOOP_HOME root@slave1:$HADOOP_HOME
![]()
分发环境配置文件
执行命令:scp /etc/profile root@slave01:/etc/profile
切换到slave1虚拟机,执行命令:source /etc/profile
(10)在master虚拟机上格式化名称节点
在master虚拟机上,执行命令:hdfs namenode -format
![]()

执行命令:start-dfs.sh,启动hdfs服务![]()

(11)启动与关闭Hadoop集群

查看master和从节点的进程


执行命令:start-yarn.sh,启动YARN服务

执行命令jps查看master虚拟机的进程,只有NameNode、SecondaryNameNode和ResourceManager

(12)查看hadoop集群的WebUI界面
在hw_win7虚拟机浏览器访问http://192.168.1.100:50070

查看数据节点信息


在HDFS上创建一个目录BigData,执行命令:hadoop fs -mkdir /BigData
![]()

停止hadoop服务

五、安装配置Spark Standalone模式的集群
(1)
利用rz将hw_win7虚拟机上的spark安装包上传到master虚拟机/opt目录

将spark安装包解压到master虚拟机指定目录
执行命令:tar -zxvf spark-2.4.4-bin-hadoop2.7..tgz -C /usr/local
![]()

执行命令:source /etc/profile,让配置生效
![]()
查看spark安装目录(bin、sbin和conf三个目录很重要)
(2)编辑spark环境配置文件 - spark-env.sh

创建slaves文件,添加从节点

(3)从节点上安装配置Spark(slave01为例)
<1>把master虚拟机上的spark安装目录分发给slave1虚拟机


<2>在slave1虚拟机上让spark环境配置文件生效
在slave1虚拟机上,执行命令:source /etc/profile
执行命令:source spark-env.sh
![]()
(4)
启动hadoop的dfs服务
在master虚拟机上执行命令:start-dfs.sh

启动Spark集群

(5)访问Spark的WebUI
在hw_win7虚拟机上,访问http://192.168.177.100:8080

启动Scala版Spark Shell
执行命令:spark-shell --master spark://master:7077

构建Hadoop与Spark分布式集群:从零开始实战教程
380






