修改hadoop的备份系数dfs.replication

最新推荐文章于 2024-01-23 18:10:04 发布

转载最新推荐文章于 2024-01-23 18:10:04 发布 · 2.6k 阅读

·

0

·

文章标签：

#dfs.replication #hadoop

Hadoop 专栏收录该内容

20 篇文章

订阅专栏

本文介绍如何在Hadoop中调整文件的备份系数，并提供实用命令来检查和修改备份系数，确保数据冗余和可用性。

Hadoop中常常需要增加新的节点，或者变更备份系数。在完成这些操作后，往往出现数据未自动备份，或者数据节点不可用的情况。本文就讨论一下这个问题。

Hadoop的备份系数是指每个block在hadoop集群中有几份，系数越高，冗余性越好，占用存储也越多。备份系数在hdfs-site.xml中定义，默认值为3.

如何变更备份系数?

首先stop-all.sh停止节点，修改master节点的hdfs-site.xml文件，设置dfs.relication值为目标值。启动hadoop集群。

查看文件的备份系数：hadoop dfs -ls [filename] 结果行中的第二列是备份系数（注：文件夹信息存储在namenode节点上，所以没有备份，故文件夹的备份系数是横杠）

在操作后会发现，以前文件的备份系数仍是原来的值。原来hadoop并不会自动的按照新的备份系数调整，我们需要手动完成。

查看hadoop集群的备份冗余情况：hadoop fsck / 我很喜欢的命令，可以方便的看到各种类型block所占比例。

我们发现Average block replication的值仍然为旧值，所以我们需要修改hdfs中文件的备份系数。

修改hdfs文件备份系数：hadoop dfs -setrep [-R] 如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1 就是把目录下所有文件备份系数设置为3.

如果再fsck时候出错，往往是由于某些文件的备份不正常导致的，可以用hadoop的balancer工具修复

自动负载均衡hadoop文件：hadoop balancer

查看各节点的磁盘占用情况 hadoop dfsadmin -report

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。