3.16 使用Zookeeper对HDFS HA配置自动故障转移及测试

一、说明

从上一节可看出,虽然搭建好了HA架构,但是只能手动进行active与standby的切换;

接下来看一下用zookeeper进行自动故障转移:

#
在启动HA之后,两个NameNode都是standby状态,可以利用zookeeper的选举功能,选出一个当Active

#
监控
    ZKFC
    FailoverController


image


二、配置

1、hdfs-site.xml

#”开启自动转移功能“,加入以下内容;

<property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
</property>


2、core-site.xml

#”设置故障转移的zookeeper集群“,加入以下内容;

<property>
        <name>ha.zookeeper.quorum</name>
        <value>master:2181,slave1:2181,slave2:2181</value>
</property>


3、关闭集群所有服务

#master
[root@master hadoop-2.5.0]# sbin/stop-dfs.sh

[root@master ~]# xcall jps
====== master jps ======
18719 Jps
====== slave1 jps ======
19150 Jps
====== slave2 jps ======
13595 Jps

#如果还有其他服务(zookeeper等)也要关闭;


4、同步配置文件

[root@master hadoop]# pwd
/opt/app/hadoop-2.5.0/etc/hadoop

[root@master hadoop]# scp -r hdfs-site.xml core-site.xml root@slave1:/opt/app/hadoop-2.5.0/etc/hadoop/
  
[root@master hadoop]# scp -r hdfs-site.xml core-site.xml root@slave2:/opt/app/hadoop-2.5.0/etc/hadoop/


5、启动zookeeper

#所有节点启动zookeeper
[root@master ~]# /opt/app/zookeeper-3.4.5/bin/zkServer.sh start

[root@slave1 ~]# /opt/app/zookeeper-3.4.5/bin/zkServer.sh start

[root@slave2 ~]# /opt/app/zookeeper-3.4.5/bin/zkServer.sh start

#查看
[root@master ~]# xcall jps
====== master jps ======
18824 Jps
18765 QuorumPeerMain
====== slave1 jps ======
19201 QuorumPeerMain
19263 Jps
====== slave2 jps ======
13646 QuorumPeerMain
13702 Jps


6、初始化HA在Zookeeper中状态

#master
[root@master hadoop-2.5.0]# bin/hdfs zkfc -formatZK

#
此时可以在slave1上用客户端连入zookeeper查看:
[root@slave1 zookeeper-3.4.5]# bin/zkCli.sh

[zk: localhost:2181(CONNECTED) 1] ls /
[zookeeper]

[zk: localhost:2181(CONNECTED) 2] ls /    #生成了hadoop-ha
[hadoop-ha, zookeeper]


7、启动HDFS服务

#master
[root@master hadoop-2.5.0]# sbin/start-dfs.sh 

#查看启动情况
[root@master ~]# xcall jps
====== master jps ======
19588 DFSZKFailoverController    #ZKFC监控进程
19087 NameNode
19193 DataNode
19393 JournalNode
18765 QuorumPeerMain
19662 Jps
====== slave1 jps ======
19743 DFSZKFailoverController    #ZKFC监控进程
19201 QuorumPeerMain
19800 Jps
19613 JournalNode
19521 DataNode
19443 NameNode
====== slave2 jps ======
13646 QuorumPeerMain
13850 DataNode
14014 Jps
13942 JournalNode


#查看nn1  nn2的状态
[root@master hadoop-2.5.0]# bin/hdfs haadmin -getServiceState nn1
19/04/18 10:34:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
active

[root@master hadoop-2.5.0]# bin/hdfs haadmin -getServiceState nn2
19/04/18 10:34:54 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
standby

#可见已经自动把nn1选举为active了,nn2为standby;在web中也可以看到;


8、测试故障自动转移

可以kill掉active状态的namenode,查看standby状态的namenode是否已经自动变为active了;

转载于:https://www.cnblogs.com/weiyiming007/p/10728237.html

<think>好的,我现在需要回答用户关于如何配置ZooKeeper来实现HDFS NameNode的自动故障转移的问题。首先,我需要回忆一下HDFS高可用性(HA)的相关知识,特别是自动故障转移配置步骤。根据用户提供的引用内容,引用[1]提到ZooKeeper集群崩溃时不会触发自动故障转移,但HDFS仍能运行,这说明ZooKeeper自动故障转移中的关键作用。引用[3]则给出了配置ZooKeeper地址的示例,比如ha.zookeeper.quorum属性,这应该是配置过程中需要设置的部分。 接下来,我需要整理配置步骤。通常,HDFS HA自动故障转移依赖于ZooKeeper的选举机制和故障检测。因此,配置步骤可能包括安装ZooKeeper集群、修改HDFS配置文件如hdfs-site.xml,设置相关属性如ha.zookeeper.quorum,以及启动必要的服务如ZKFC(ZooKeeper Failover Controller)。引用[3]中提到关闭所有HDFS服务,可能是在配置完成后需要重启服务。 然后,我需要验证这些步骤是否正确。例如,确保ZooKeeper集群正常运行,各个节点之间能够通信,配置文件中没有语法错误,并且ZKFC能够正确启动。此外,用户可能还需要知道如何测试故障转移是否生效,比如手动杀死Active NameNode进程,观察Standby是否接管。 另外,用户可能遇到的问题包括ZooKeeper连接失败、配置参数错误或服务启动顺序不当。需要提醒用户在配置后仔细检查这些点,并参考官方文档或可靠资源进行验证。引用[2]提到NameNode管理文件系统的命名空间,这可能在故障转移时需要保持元数据的一致性,因此确保JournalNode正确配置和运行也是关键。 最后,生成的相关问题应该围绕用户可能进一步关心的点,比如如何验证配置成功、常见错误解决方法,或者性能影响等。确保问题具体且有助于用户深入理解。</think>### 如何配置ZooKeeper实现HDFS NameNode自动故障转移? #### 1. **前置条件** - **ZooKeeper集群已部署**:至少3个节点,且服务正常运行(端口2181可访问)[^3]。 - **HDFS HA已启用**:已配置Active和Standby NameNode,并部署JournalNode集群(用于元数据同步)。 --- #### 2. **核心配置步骤** 1. **修改`hdfs-site.xml`文件** ```xml <!-- 启用自动故障转移 --> <property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> </property> <!-- 配置ZooKeeper集群地址 --> <property> <name>ha.zookeeper.quorum</name> <value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value> </property> ``` 引用[3]中的配置示例直接关联ZooKeeper地址与HDFS故障转移逻辑。 2. **配置ZKFC(ZooKeeper Failover Controller)** - 在**每个NameNode节点**的`hdfs-site.xml`中添加: ```xml <property> <name>dfs.ha.fencing.methods</name> <value>shell(/path/to/custom_fence_script.sh)</value> </property> ``` - **启动ZKFC服务**: ```bash hadoop-daemon.sh start zkfc ``` ZKFC负责监控NameNode状态并向ZooKeeper注册节点信息[^1]。 3. **初始化ZooKeeper中的HA状态** ```bash hdfs zkfc -formatZK ``` 此命令在ZooKeeper中创建用于协调故障转移的持久化节点。 --- #### 3. **验证配置** 1. **检查ZooKeeper连接**: ```bash echo stat | nc hadoop01 2181 ``` 确认所有节点均返回`Zookeeper version`信息。 2. **手动触发故障转移测试**: - 终止Active NameNode进程,观察Standby NameNode是否在30秒内自动切换为Active状态[^1]。 --- #### 4. **注意事项** - **JournalNode集群健康度**:需确保至少半数以上JournalNode存活,否则元数据同步会失败[^2]。 - **避免脑裂问题**:通过`dfs.ha.fencing.methods`配置隔离策略(如SSH fencing或自定义脚本)。 --- 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值