【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析④

最新推荐文章于 2023-08-31 19:29:34 发布

爱波吉的阿尼亚

最新推荐文章于 2023-08-31 19:29:34 发布

阅读量1.9k

点赞数 1

分类专栏：阿尼亚的BigData之旅文章标签： big data 大数据 hadoop linux

本文链接：https://blog.youkuaiyun.com/qq_45943172/article/details/125069741

版权

阿尼亚的BigData之旅专栏收录该内容

17 篇文章

订阅专栏

本文详细介绍了如何在master和slave节点上进行Hadoop 2.7.3的完全分布式集群搭建，包括解压安装包、配置环境变量、设置HDFS和YARN参数，以及格式化文件系统和启动集群。适合大数据初学者和进阶者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大家好，喜欢Bigdata的阿尼亚来了！希望大家会喜欢阿尼亚的文章！！哇酷哇酷！！！

本次为师傅们带来的是“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析系列的第④期，是“Hadoop完全分布式集群搭建”篇章哦！

第①期完整赛题、第②期基础环境配置和第③期Zookeeper集群环境搭建的链接在下面，师傅们想看完整赛题、基础环境配置和Zookeeper集群环境搭建的请安心享用：

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析①_爱波吉的阿尼亚的博客-优快云博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析②_爱波吉的阿尼亚的博客-优快云博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析③_爱波吉的阿尼亚的博客-优快云博客

Hadoop完全分布式集群搭建（30 / 30分）

1.将Hadoop安装包解压到指定路径/usr/hadoop（安装包存放于/usr/package/）

2.配置Hadoop环境变量，注意生效（$HADOOP_HOME）

3.配置Hadoop运行环境JAVA_HOME

4.设置全局参数，指定NN的IP为master（映射名），端口为9000

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径，下同)

6.设置HDFS参数，指定备份文本数量为2

7.设置HDFS参数，指定NN存放元数据信息路径为hadoop目录下/hdfs/name

8.设置HDFS参数，指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

9.设置YARN运行环境JAVA_HOME参数

10.设置YARN核心参数，指定ResourceManager进程所在主机为master，端口为18141

11.设置YARN核心参数，指定NodeManager上运行的附属服务为shuffle

12.设置计算框架参数，指定MR运行在yarn上

13.设置节点文件，要求master为主节点； slave1、slave2为子节点

14.文件系统格式化

15.启动Hadoop集群

Hadoop完全分布式集群搭建（30 / 30分）

Hadoop是由Java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

考核条件如下：

1.将Hadoop安装包解压到指定路径/usr/hadoop（安装包存放于/usr/package/）

操作环境: master、slave1、slave2

#master、slave1、slave2
mkdir -p /usr/hadoop                    #创建目录

cd /usr/hadoop                          #切换到目录

cp /usr/package/hadoop-2.7.3.tar.gz /usr/hadoop  #拷贝压缩包到当前目录

tar -zxvf hadoop-2.7.3.tar.gz           #解压

2.配置Hadoop环境变量，注意生效（$HADOOP_HOME）

操作环境: master、slave1、slave2

#master、slave1、slave2
vim /etc/profile                                 #修改对应配置文件

#添加以下内容
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

source /etc/profile                              #生效配置文件

3.配置Hadoop运行环境JAVA_HOME

操作环境: master、slave1、slave2

#master、slave1、slave2
cd $HADOOP_HOME/etc/hadoop                        #切换到对应目录

vim hadoop-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

4.设置全局参数，指定NN的IP为master（映射名），端口为9000

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
  <name>fs.default.name</name>
  <value>hdfs://master:9000</value>
 </property>
  …………………………
</configuration>

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径，下同)

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
 </property>
  …………………………
</configuration>

6.设置HDFS参数，指定备份文本数量为2

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
  <name>dfs.replication</name>
  <value>2</value>
 </property>
  …………………………
</configuration>

7.设置HDFS参数，指定NN存放元数据信息路径为hadoop目录下/hdfs/name

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
 </property>
  …………………………
</configuration>

8.设置HDFS参数，指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

操作环境: slave1、master、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
 </property>
  …………………………
</configuration>

9.设置YARN运行环境JAVA_HOME参数

操作环境: master、slave1、slave2

#master、slave1、slave2
vim yarn-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

10.设置YARN核心参数，指定ResourceManager进程所在主机为master，端口为18141

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>master:18141</value>
 </property>
  …………………………
</configuration>

11.设置YARN核心参数，指定NodeManager上运行的附属服务为shuffle

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
  …………………………
</configuration>

12.设置计算框架参数，指定MR运行在yarn上

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
 <!--指定 Mapreduce 运行在 yarn 上-->
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

13.设置节点文件，要求master为主节点； slave1、slave2为子节点

操作环境: master、slave1、slave2

#master、slave1、slave2
vim master      #修改对应配置文件

#添加以下内容
master

vim slaves      #修改对应配置文件

#添加以下内容
slave1

vim slaves      #修改对应配置文件

#添加以下内容
slave2

14.文件系统格式化

操作环境: master

#master
hadoop namenode -format        #文件系统格式化

15.启动Hadoop集群

操作环境: master、slave1、slave2

#master、slave1、slave2
start-all.sh                   #启动Hadoop集群