Hadoop节点热拔插(添加 删除节点)

本文介绍如何在Hadoop集群中实现节点的热拔插操作,包括添加和移除节点的过程及注意事项,并讲解了数据负载均衡的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop节点热拔插(添加 删除节点)

一、 Hadoop节点热拔插

在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。

2.在集群中添加节点:

a. 把新节点IP或者主机名字加入到主节点的slaves文件。

b. 登录到新节点,执行:

cd $HADOOP_HOME && bin/hadoop-daemon.sh start datanode && bin/hadoop-daemon.sh start tasktracker

3. 从集群中移走节点,且对移走节点的数据进行备份:

a. 在主节点的core-site.xml配置文件中添加<property>
          <name>dfs.hosts.exclude</name>
          <value>$HADOOP_HOME/conf/excludes</value>
</property>
($HADOOP_HOME似应改为绝对路径)

b. 在主节点的$HADOOP_HOME/conf目录下新建文件excludes,每行为需要移走的节点,如:

s140

c. 运行命令:hadoop dfsadmin -refreshNodes,该命令可以动态刷新dfs.hosts和dfs.hosts.exclude配置,无需重启NameNode。此刻datanode消失了,但是tasktracker还存在。

d. 然后通过 bin/hadoop dfsadmin -report查看,结果如下:

Name: 192.168.3.140:50010

Decommission Status : Decommission in progress

Configured Capacity: 310716715008 (289.38 GB)

DFS Used: 59891990052 (55.78 GB)

Non DFS Used: 20663939548 (19.24 GB)

DFS Remaining: 230160785408(214.35 GB)

DFS Used%: 19.28%

DFS Remaining%: 74.07%

Last contact: Fri Aug 13 10:17:20 GMT+08:00 2010

Name: 192.168.3.136:50010

Decommission Status : Normal

Configured Capacity: 487925370880 (454.42 GB)

DFS Used: 101679245034 (94.7 GB)

Non DFS Used: 55873218838 (52.04 GB)

DFS Remaining: 330372907008(307.68 GB)

DFS Used%: 20.84%

DFS Remaining%: 67.71%

Last contact: Fri Aug 13 10:17:21 GMT+08:00 2010


e. 在停掉节点Decommission Status不为Normal前, mapreduce操作会出现异常。

d步的命令可以查看到被删除节点状态,如192.168.5.91
Decommission Status : Decommissioned
说明从91往其他节点同步数据已经完成,如果状态为Decommission Status : Decommissione in process则还在执行。
登录要下架的机器,会发现DataNode进程没有了,但是TaskTracker依然存在,需要手工处理一下

f. 节点移走64G数据需要十分钟左右。

二、 数据负载均衡

1. 在Hadoop集群中新添加一个Datanode时,需要对集群数据进行负载均衡。

2. 在主节点运行bin/start-balancer.sh命令,可以添加参数-threshold 5,threshold是平衡阈值,默认是10%,值越小负载越均衡,但需要更长的时间去执行。

3. 添加s140到集群,执行负载均衡半个小时共负载了4G的数据。

### 如何在Hadoop分布式文件系统中添加新的DataNode节点 要在现有的Hadoop集群中添加一个新的DataNode节点,需要遵循一系列配置和操作流程。以下是详细的说明: #### 配置新增加的机器 1. **安装Java环境** 新增的机器上必须先安装与现有集群相同版本的JDK,并确保`JAVA_HOME`变量已正确设置[^4]。 2. **同步Hadoop软件包** 将当前使用的Hadoop版本复制到新节点并解压至指定路径。确保该路径与其他节点一致以便于管理。 3. **修改核心配置文件** - 编辑 `core-site.xml`, 设置相同的 `fs.defaultFS` 参数指向 NameNode 的 URI。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://<namenode-ip>:9000</value> </property> </configuration> ``` - 修改 `hdfs-site.xml` 文件中的参数以匹配主集群配置,特别是 `dfs.replication` 和存储目录定义部分。 ```xml <configuration> <property> <name>dfs.datanode.data.dir</name> <value>/path/to/data/directory</value> </property> </configuration> ``` 4. **SSH免密登录配置** 如果尚未完成,则需为主节点和其他数据节点配置无密码 SSH 访问权限。这通常涉及将主节点上的公钥分发给所有目标主机包括这个新加的数据节点。 5. **更新slaves列表** 在NameNode服务器上的 `$HADOOP_HOME/etc/hadoop/slaves` 文件里追加新加入 DataNodes 的 IP 地址或者主机名。 6. **格式化名称节点 (可选)** 当首次初始化整个 HDFS 或者遇到某些特殊错误时才可能需要用到此命令;一般情况下不需要再次执行格式化动作除非特别必要[^3]。 7. **重启服务** 使用如下脚本来停止旧的服务实例然后再重新开启它们: ```bash stop-dfs.sh && start-dfs.sh ``` 8. **验证状态** 登陆Web UI界面 http://<namenode-host>:50070 来确认新增加的那个 datanode 是否成功注册到了 namenode 上面并且正常工作着。 如果一切顺利的话,你应该能够看到最新的datanodes出现在web ui界面上. ```python print("New Datanode successfully added.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值