以下是基于三台机器(data1、data2、data3)的Hadoop高可用(HA)配置步骤,包含HDFS和YARN的高可用部署:
1. 角色分配
机器名 | HDFS角色 | YARN角色 | ZooKeeper | JournalNode |
---|---|---|---|---|
data1 | NameNode (Active) | ResourceManager | ✔️ | ✔️ |
data2 | NameNode (Standby) | ResourceManager | ✔️ | ✔️ |
data3 | DataNode, NodeManager | DataNode, NodeManager | ✔️ | ✔️ |
2. 前置条件
- SSH免密登录:三台机器之间配置SSH无密码访问。
- 时间同步:使用NTP服务确保时间一致。
- Java环境:所有节点安装相同版本的JDK(建议JDK8+)。
- Hosts配置:确保
/etc/hosts
包含所有节点的IP和主机名映射。
3. ZooKeeper集群配置
配置文件 conf/zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/var/lib/zookeeper
clientPort=2181
server.1=data1:2888:3888
server.2=data2:2888:3888
server.3=data3:2888:3888
创建节点ID
- 在data1上:
echo "1" > /var/lib/zookeeper/myid
- 在data2上:
echo "2" > /var/lib/zookeeper/myid
- 在data3上:
echo "3" > /var/lib/zookeeper/myid
启动ZooKeeper
# 所有节点执行
zkServer.sh start
4. HDFS高可用配置
修改 etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>data1:2181,data2:2181,data3:2181</value>
</property>
</configuration>
修改 etc/hadoop/hdfs-site.xml
<configuration>
<!-- 通用配置 -->
<property>
<name>dfs.nameservices</name>
<value>mycluster</value>
</property>
<property>
<name>dfs.ha.namenodes.mycluster</name>
<value>nn1,nn2</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1</name>
<value>data1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2</name>
<value>data2:8020</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn1</name>
<value>data1:9870</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn2</name>
<value>data2:9870</value>
</property>
<!-- JournalNode配置 -->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/var/lib/hadoop/journal</value>
</property>
<property>
<name>dfs.ha.journalnodes.mycluster</name>
<value>data1:8485,data2:8485,data3:8485</value>
</property>
<!-- 故障转移配置 -->
<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
</configuration>
5. YARN高可用配置
修改 etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>yarn-cluster</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>data1</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>data2</value>
</property>
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>data1:2181,data2:2181,data3:2181</value>
</property>
</configuration>
6. 初始化与启动
步骤1:启动JournalNodes
# 所有节点执行
hdfs --daemon start journalnode
步骤2:格式化HDFS
# 在data1上格式化NameNode
hdfs namenode -format
hdfs zkfc -formatZK # 初始化ZooKeeper
# 同步元数据到Standby节点(data2)
scp -r /hadoop/data/name data2:/hadoop/data/
步骤3:启动HDFS
# 启动所有HDFS服务
start-dfs.sh
步骤4:启动YARN
# 在data1和data2上启动ResourceManager
yarn --daemon start resourcemanager
# 在所有节点启动NodeManager
yarn --daemon start nodemanager
7. 验证高可用
HDFS状态检查
hdfs haadmin -getServiceState nn1 # 应返回 active
hdfs haadmin -getServiceState nn2 # 应返回 standby
YARN状态检查
yarn rmadmin -getServiceState rm1 # 应返回 active
yarn rmadmin -getServiceState rm2 # 应返回 standby
手动触发故障转移
hdfs haadmin -failover nn1 nn2 # 切换NameNode
yarn rmadmin -transitionToStandby rm1 # 切换ResourceManager
8. 注意事项
- 防火墙:确保开放端口如8020(RPC)、9870(HTTP)、8485(JournalNode)、2181(ZooKeeper)等。
- 日志监控:检查
/var/log/hadoop/
下的日志文件排查问题。 - 数据平衡:使用
hdfs balancer
均衡DataNode数据分布。