为什么需要自动故障转移
在 HDFS 2.x 集群的 HA 模式下通常会有两个 NameNode 用来进行记录元数据,其中一个是主节点(Active),另外一个是备节点(Standby)。主备之间的数据同步通过 JournalNode 节点来充当中介,从而完成了主备节点之间数据的最终一致性。
当 NameNode 的主节点宕机后,通过命令可以切换到它的备节点成为主节点,使用命令进行切换需要人工的参与,虽然这样可以解决 HDFS 高可用的问题,但是这样的切换还是比较繁琐的。因此需要在 Active 节点发生故障的时候进行自动地切换到 Standby 节点,从而完成故障自动转移。
为了实现故障的自动转移,HDFS 引入了 ZooKeeper 和 ZKFC。
故障自动转移
HDFS 为了实现故障自动转移功能添加了两个组件,分别是 ZooKeeper 集群
和 ZKFailoverController 进程。其中,ZKFailoverController 简称为 ZKFC。
ZooKeeper 在故障自动转移中的作用大体有两个,第一个是 NameNode 的选“主”,第二个是监听故障的发生。
ZKFC 在故障自动转移中的作用大体也是两个,第一个是在 ZooKeeper 中用于争抢锁完成选“主”,第二个是当 Active 节点发生故障时,用于完成故障的自动切换。
HDFS HA 故障自动转移架构图
来看一下 HDFS H