Hadoop2.0 HA集群搭建步骤

最新推荐文章于 2022-08-02 20:35:02 发布

转载最新推荐文章于 2022-08-02 20:35:02 发布 · 484 阅读

文章标签：

#hadoop #集群

本文详细介绍了一套Hadoop集群的搭建过程，包括集群节点分配、防火墙关闭、主机名及hosts文件配置、免密码登录设置、各组件安装配置等步骤，并提供了启动集群的详细流程。

1.1.1. 集群节点分配

Park01

Zookeeper

NameNode (active)

Resourcemanager (active)

Park02

Zookeeper

NameNode (standby)

Park03

Zookeeper

ResourceManager (standby)

Park04

DataNode

NodeManager

JournalNode

Park05

DataNode

NodeManager

JournalNode

Park06

DataNode

NodeManager

JournalNode

1.1.2. 安装步骤

0.永久关闭每台机器的防火墙

执行：service iptables stop

再次执行：chkconfig iptables off

1.为每台机器配置主机名以及hosts文件

配置主机名=》执行： vim /etc/sysconfig/network =》然后执行 hostname 主机名=》达到不重启生效目的

配置hosts文件=》执行：vim /etc/hosts

示例：

127.0.0.1 localhost

::1 localhost

192.168.234.21 hadoop01

192.168.234.22 hadoop02

192.168.234.23 hadoop03

192.168.234.24 hadoop04

192.168.234.25 hadoop05

192.168.234.26 hadoop06

2.通过远程命令将配置好的hosts文件 scp到其他5台节点上

执行：scp /etc/hosts hadoop02: /etc

3.为每天机器配置ssh免秘钥登录

执行：ssh-keygen

ssh-copy-id root@hadoop01 （分别发送到6台节点上）

4.前三台机器安装和配置zookeeper

配置conf目录下的zoo.cfg以及创建myid文件

（zookeeper集群安装具体略）

5.为每台机器安装jdk和配置jdk环境

6.为每台机器配置主机名,然后每台机器重启，（如果不重启，也可以配合：hostname hadoop01生效）

执行： vim /etc/sysconfig/network 进行编辑

7.安装和配置01节点的hadoop

配置hadoop-env.sh

配置jdk安装所在目录

配置hadoop配置文件所在目录

8.配置core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://ns</value>

</property>



<property>

<name>hadoop.tmp.dir</name>

<value>/home/software/hadoop-2.7.1/tmp</value>

</property>



<property>

<name>ha.zookeeper.quorum</name>

<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>

</property>

</configuration>

9.配置01节点的hdfs-site.xml

<configuration>

<property>

<name>dfs.nameservices</name>

<value>ns</value>

</property>



<property>

<name>dfs.ha.namenodes.ns</name>

<value>nn1,nn2</value>

</property>



<property>

<name>dfs.namenode.rpc-address.ns.nn1</name>

<value>hadoop01:9000</value>

</property>



<property>

<name>dfs.namenode.http-address.ns.nn1</name>

<value>hadoop01:50070</value>

</property>



<property>

<name>dfs.namenode.rpc-address.ns.nn2</name>

<value>hadoop02:9000</value>

</property>



<property>

<name>dfs.namenode.http-address.ns.nn2</name>

<value>hadoop02:50070</value>

</property>



<property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop04:8485;hadoop05:8485;hadoop06:8485/ns</value>

</property>



<property>

<name>dfs.journalnode.edits.dir</name>

<value>/home/software/hadoop-2.7.1/journal</value>

</property>



<property>

<name>dfs.ha.automatic-failover.enabled</name>

<value>true</value>

</property>



<property>

<name>dfs.client.failover.proxy.provider.ns</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>



<property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>



<property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

<value>/root/.ssh/id_rsa</value>

</property>



<property>

<name>dfs.namenode.name.dir</name>

<value>file:///home/software/hadoop-2.7.1/tmp/namenode</value>

</property>



<property>

<name>dfs.datanode.data.dir</name>

<value>file:///home/software/hadoop-2.7.1/tmp/datanode</value>

</property>



<property>

<name>dfs.replication</name>

<value>3</value>

</property>



<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

10.配置mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

11.配置yarn-site.xml

<configuration>

<property>

<name>yarn.resourcemanager.ha.enabled</name>

<value>true</value>

</property>



<property>

<name>yarn.resourcemanager.ha.rm-ids</name>

<value>rm1,rm2</value>

</property>



<property>

<name>yarn.resourcemanager.hostname.rm1</name>

<value>hadoop01</value>

</property>

<property>

<name>yarn.resourcemanager.hostname.rm2</name>

<value>hadoop03</value>

</property>



<property>

<name>yarn.resourcemanager.recovery.enabled</name>

<value>true</value>

</property>



<property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>



<property>

<name>yarn.resourcemanager.zk-address</name>

<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>

<description>For multiple zk services, separate them with comma</description>

</property>



<property>

<name>yarn.resourcemanager.cluster-id</name>

<value>yarn-ha</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>hadoop01</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

12.配置slaves文件

配置代码：

hadoop04

hadoop05

hadoop06

13.配置hadoop的环境变量（可不配）

JAVA_HOME=/home/software/jdk1.8

HADOOP_HOME=/home/software/hadoop-2.7.1

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export JAVA_HOME PATH CLASSPATH HADOOP_HOME