0526-6.1-如果你不小心删了一个NameNode1

1 文档编写目的

在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况,然后尝试去解决,即先删除一个NameNode,然后如何通过配置将该NameNode重新加回到HDFS服务中。

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

2 模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。

3.删除这三个角色,注意下表已经少了这三个角色。

4.这是HDFS服务直接报错了。

3 个验证错误。
    Quorum Journal 需要至少三个 JournalNode
    Quorum Journal 需要奇数的 JournalNode
    Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
    在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。

3 故障修复方法1

1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。

2.我们先尝试点击该按钮,尝试重新启用HDFS的HA。

这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-9-113.ap-southeast-1.compute.internal

报错,启用失败,实际其实我们已经选择了三个JournalNode,但仍旧报错需要3个JournalNode,返回,我们继续尝试。

4 故障修复方法2

1.从以下界面把删掉的NameNode,JournalNode和Failover Controller的三个角色再给加回去。

2.点击添加角色实例,并相应的选择之前删掉NameNode,JournalNode和Failover Controller角色所在的主机ip-172-31-9-113.ap-southeast-1.compute.internal

3.点击“继续”

4.点击“完成”

5.直接重启HDFS服务,尝试拉起刚刚新加的三个角色

还是失败。

6.进入ip-172-31-9-113.ap-southeast-1.compute.internal节点所在的NameNode配置页面。

选择“配置”标签页

在“NameNode Nameservice”配置项中输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

7.在“Quorum Journal 名称”配置项也输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。

8.勾选“启用自动故障转移”,然后保存。

9.回到HDFS服务的实例页面,发现之前的错误已经消失了。

10.回到CM主页重新部署客户端,并重启集群所有服务。

重启成功,集群恢复正常。

11.HDFS验证,一切正常。

提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

### 解决执行 `hdfs namenode -format` 命令时找到 HDFS 的问题 当执行 `hdfs namenode -format` 命令时,如果出现找到 HDFS 的错误,通常是因为环境变量未正确配置或 Hadoop 配置文件存在问题。以下是可能的原因及解决方案: #### 1. 检查 Hadoop 环境变量 确保 `HADOOP_HOME` 和 `PATH` 环境变量已正确设置。例如,在 `/etc/profile` 或 `~/.bashrc` 文件中添加以下内容: ```bash export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 然后执行以下命令以使更改生效: ```bash source /etc/profile ``` 如果环境变量未正确设置,可能会导致系统无法找到 HDFS 命令[^1]。 #### 2. 检查 Hadoop 配置文件 确认 Hadoop 的核心配置文件(如 `core-site.xml` 和 `hdfs-site.xml`)是否正确配置。以下是常见的配置项示例: - **core-site.xml**: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode:9000</value> </property> </configuration> ``` - **hdfs-site.xml**: ```xml <configuration> <property> <name>dfs.namenode.name.dir</name> <value>/path/to/namenode/data</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/path/to/datanode/data</value> </property> </configuration> ``` 如果配置文件路径错误或内容完整,可能导致格式化失败[^3]。 #### 3. 检查 Hadoop 是否正确安装 确保 Hadoop 已正确解压并放置在指定路径下。可以通过以下命令验证: ```bash ls /path/to/hadoop/bin/hdfs ``` 如果该路径下存在 `hdfs` 文件,则需要重新安装或检查 Hadoop 的安装路径[^1]。 #### 4. 检查 JournalNode 配置(适用于高可用模式) 在高可用模式下,JournalNode 的配置至关重要。如果 JournalNode 未正确启动或路径未格式化,可能导致格式化失败。例如,确保以下配置项正确: ```xml <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://jn1:8485;jn2:8485;jn3:8485/mycluster</value> </property> ``` 此外,还需要确保 JournalNode 已启动: ```bash hadoop-daemon.sh start journalnode ``` 如果 JournalNode 路径未格式化,可以手动格式化: ```bash hdfs namenode -initializeSharedEdits ``` 如果 JournalNode 配置错误,可能导致类似 `org.apache.hadoop.hdfs.qjournal.client.QuorumException` 的异常[^4]。 #### 5. 执行格式化命令 在完成上述检查后,尝试重新执行格式化命令: ```bash hdfs namenode -format ``` 如果需要指定 `clusterId`,可以使用以下命令: ```bash hdfs namenode -format -clusterId aaaaa ``` 此命令会生成随机的 `NamespaceInfo` 并初始化 NameNode 的存储目录[^3]。 --- ### 示例代码 以下是一个完整的脚本,用于检查和修复 Hadoop 环境变量及配置文件: ```bash #!/bin/bash # 检查 Hadoop 环境变量 if [ -z "$HADOOP_HOME" ]; then echo "HADOOP_HOME is not set. Please configure it." exit 1 fi # 检查 hdfs 命令是否存在 if ! command -v hdfs &> /dev/null; then echo "hdfs command not found. Please check PATH variable." exit 1 fi # 格式化 NameNode echo "Formatting NameNode..." hdfs namenode -format ``` ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值