HDFS详解二之副本放置策略

原创已于 2023-03-10 23:36:52 修改 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #hdfs #java

于 2019-03-01 14:36:43 首次发布

副本放置策略

假设在数据中心的一个机架上面有5个服务器。一般正常的机架放10个，为什么10个，这个是按照机架的电量去算的，每个服务器分配多少安培的电流，一个机柜的电流安培数是有标准的，一个机柜的电流大小除以一个服务器的电流大小，算一个估算值。】

正常情况下，就是三个副本。副本不是越多越好，越多，需要的存储空间就大了，而且写的越慢。

第一个副本：

放置在上传的DN节点上，比如现在用client客户端上传的文件提交到HDFS上面，上传的那台机器正好是DataNode节点，会优先在自己所在的节点上上传一个副本，这样就不需要通过网络IO通过网线去传输数据包，这样会节省时间。

如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上。（老大NN是知道哪些节点是空闲的，会返回地址列表让你去上传）。

第二个副本：

放置在与第一个副本不同的机架的节点上。

第三个副本：

放置在与第二个副本相同机架的不同节点上。

假如还有更多的副本，就随机放，随机放在节点上。

生产上尽量将上传数的动作，读写的动作选取DataNode节点上。优先自己，这样减少网络带宽消耗，减少时间。

面试题:
集群上有DataNode 3个，其中一个DataNode挂了，那么一个文件有三个副本，
那么我现在能够正确读取文件内容吗？

待补充........

（网上：第一不会给储存带来影响，因为有其他的副本保存着，不过建议尽快修复，第二会影响运算的效率，机器少了，reduce在保存数据时选择就少了，一个数据的块就大了所以就会慢。）

其中DataNode挂了其实就是block Miss，那么怎样去修复？

1.手动修复
参考：https://blog.youkuaiyun.com/high2011/article/details/72461376

hdfs |grep debug

hdfs debug
Usage: hdfs debug <command> [arguments]

verify [-meta <metadata-file>] [-block <block-file>]
recoverLease [-path <path>] [-retries <num-retries>]

2.自动修复
参考：https://www.cnblogs.com/prayer21/p/4819789.html

博客等级

码龄10年

82
原创

101
点赞

461
收藏

181
粉丝

关注

私信

热门文章

分类专栏

Spark 34篇
Hive 4篇
Scala 5篇
MapReduce 4篇

上一篇：: HDFS详解二之HDFS读写流程

下一篇：: MapReduce原理

最新评论

jps命令查看DataNode进程不见了(hadoop3.0亲测可用)
BITJason: 第二种方法完美解决，谢谢博主！
Hive实战
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加条理清晰的目录；(3)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)。
Hive进阶
优快云-Ada助手: 大数据里的5V分别表示什么：Volume, Velocity, Variety, Veracity, Value?
Hive DML学习
优快云-Ada助手: 过去的是回忆，现在的是拼搏，未来的是目标。
Hive DDL学习
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加条理清晰的目录。

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。