HDFS2.0 NameNode HA 切换失败后的恢复（元数据写坏）（2014.10.1编辑）

最新推荐文章于 2022-09-22 12:58:22 发布

WentaoMa

最新推荐文章于 2022-09-22 12:58:22 发布

阅读量7.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop分布式计算相关技术文章标签： Hadoop hdfs namenode

本文链接：https://blog.youkuaiyun.com/yu_fu/article/details/39177817

hadoop分布式计算相关技术专栏收录该内容

6 篇文章

订阅专栏

在测试HDFS2.0的NameNode HA时，遇到切换失败并导致元数据损坏的问题。尝试了初始化共享编辑、同步NN元数据、删除错误的edits文件和调整seen_txid等方法，最终成功恢复NN。故障原因是JN在系统包更新后未能正确重启，导致加载新类异常。解决方案是避免随意重启JN，确保其独立维护。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在测试 HDFS2.0 的 NameNode HA 的时候，并发put 700M的文件，然后 Kill 主 NN ；发现备 NN 切换后进程退出。

2014-09-03 11:34:27,221 FATAL org.apache.hadoop.hdfs.server.namenode.FSEditLog: Error: recoverUnfinalizedSegments failed for required journal (JournalAndStream(mgr=QJM to [10.136.149.96:8485, 10.136.149.97:8485, 10.136.149.99:8485], stream=null))
org.apache.hadoop.hdfs.qjournal.client.QuorumException: Got too many exceptions to achieve quorum size 2/3. 1 successful responses:
10.136.149.99:8485: null [success]
2 exceptions thrown:
10.136.149.97:8485: org/apache/hadoop/io/MD5Hash

然后重启 NN 两个 NN均失败，

怀疑是 JN 那里有问题，可能有垃圾产生，bin/hdfs namenode -initializeSharedEdits 启动NN ，还是失败