Hadoop2.7.1 集群安装指南

最新推荐文章于 2025-12-21 16:27:21 发布

原创最新推荐文章于 2025-12-21 16:27:21 发布 · 367 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop2.7 #spark1.5 #集群配置

大数据&人工智能专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了Hadoop集群的安装与配置过程，包括环境准备、修改环境变量、配置文件调整、SSH免密码登录设置及集群启动步骤。

安装前准备

官网下载hadoop-2.7.1.tar.gz，拷贝到多台Linux机器对应/opt目录下
openJDK 1.7
CentOS 6

修改环境变量

修改Linux配置文件/etc/profile

HADOOP_PREFIX=/opt/hadoop-2.7.1

JAVA_HOME=/usr/lib/jvm/jre-1.7.0

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin

export HADOOP_PREFIX PATH JAVA_HOME

保存后使用 source /etc/profile使环境变量生效

修改 vim hadoop-2.7.1/etc/hadoop/hadoop-env.sh

设置 JAVA_HOME=/usr/lib/jvm/jre-1.7.0

修改 /etc/hosts

192.168.1.197 master

192.168.1.197 D1 【这一行，为本机主机名映射，本台机器hostname为D1，如果机器名已经改成master和slaveN就不需要这一行了】

192.168.1.198 slave1

192.168.1.199 slave2

修改 vim hadoop-2.7.1/etc/hadoop/core-site.xml

<name>hadoop.tmp.dir</name>

<value>/opt/hadoop-2.7.1/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

</property>

<name>io.file.buffer.size</name>

</property>

</configuration>

修改 vim hadoop-2.7.1/etc/hadoop/hdfs-site.xml

<!--

<name>dfs.replication</name>

</property>

-->

<name>dfs.namenode.name.dir</name>

<value>file:/opt/hadoop-2.7.1/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/opt/hadoop-2.7.1/data</value>

</property>

<name>dfs.blocksize</name>

</property>

<name>dfs.namenode.handler.count</name>

</property>

</configuration>

修改 vim hadoop-2.7.1/etc/hadoop/yarn-site.xml

<name>yarn.acl.enable</name>

<value>false</value>

</property>

<name>yarn.admin.acl</name>

</property>

<name>yarn.log-aggregation-enable</name>

<value>false</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8035</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

修改 vim hadoop-2.7.1/etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

创建用户、用户组

useradd hadoop【系统会为新增的hadoop用户自动创建hadoop用户组】

chown -R hadoop:hadoop hadoop-2.7.1/

chmod -R 777 hadoop-2.7.1/ 【这里如果只希望hadoop用户组可以执行，可以更改为775】

passwd hadoop【输入两次密码，这里使用hadoop作为密码】

配置SSH免密码登录【Namenode使用SSH来管理Datanode节点】

在Namenode节点上，切换至Hadoop用户目录：cd ~
生成NameNode节点密钥：ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 得到 id_dsa.pub
将 id_dsa.pub 分别使用scp拷贝到 slave1和slave2机器的/home/hadoop/.ssh/下面【如果.ssh不存在，可使用ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa在/home/hadoop目录下执行，生成私钥，也会生成.ssh目录】

如果slave1和slave2机器不存在 /home/hadoop/.ssh/authorized_keys 文件，则直接将 id_dsa.pub 拷贝成 authorized_keys

如果存在则将公钥加入到authorized_keys文件：cat id_dsa.pub >> authorized_keys