HDFS Block块探讨

最新推荐文章于 2022-11-02 15:25:21 发布

原创最新推荐文章于 2022-11-02 15:25:21 发布 · 440 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Hadoop 专栏收录该内容

20 篇文章

订阅专栏

HDFS中block大小默认为128M，旨在平衡寻址时间和磁盘传输时间。块设置过大可能导致寻址时间占比过小，影响程序效率；设置过小则增加寻址时间，消耗NameNode内存。分块存储利于数据备份、提高容错性和并行处理能力。在实际应用中，根据磁盘传输速率调整block大小，如200MB/s时设为256MB，400MB/s时设为512MB。

HDFS中block不能设置太大，也不能太小

在HDFS中存储数据是以块（block）的形式存放在DataNode中的，块（block）的大小可以通过设置dfs.blocksize来实现；在Hadoop2.x的版本中，文件块的默认大小是128M，老版本中默认是64M；寻址时间：HDFS中找到目标文件块（block）所需要的时间。原理：

文件块越大，寻址时间越短，但磁盘传输时间越长
文件块越小，寻址时间越长，但磁盘传输时间越短

如果块设置过大，一方面，从磁盘传输数据的时间会明显大于寻址时间，导致程序在处理这块数据时，变得非常慢；另一方面，mapreduce中的map任务通常一次只处理一个块中的数据，如果块过大运行速度也会很慢。
如果块设置过小，一方面存放大量小文件会占用NameNode中大量内存来存储元数据，而NameNode的内存是有限的，不可取；另一方面文件块过小，寻址时间增大，导致程序一直在找block的开始位置。

因而，块适当设置大一些，减少寻址时间，那么传输一个由多个块组成的文件的时间主要取决于磁盘的传输速率。

HDFS中block大小为何为128M？

HDFS中平均寻址时间大概为10ms
经过前人的大量测试发现，寻址时间为传输时间的1%时，为最佳状态；
所以最佳传输时间为10ms/0.01=1000ms=1s
目前磁盘的传输速率普遍为100MB/s；
计算出最佳block大小：100MB/s x 1s = 100MB
所以设定block大小为128MB。

实际在工业生产中，磁盘传输速率为200MB/s时，一般设定block大小为256MB；磁盘传输速率为400MB/s时，一般设定block大小为512MB。

HDFS分块存储的好处

1、文件大小可以大于任意一个磁盘的容量，块并不需要存储在同一个磁盘上
2、抽象块作为存储单元，简化存储子系统的设计
1) DataNode将块作为处理对象，能存储多少块也能计算出
2) NameNode管理元数据
3、数据备份提高容错能力和可用性
4、Hadoop文件格式以及数据压缩算法
5、并行处理。由于数据在机器上分配，因此可以利用分布式和并行计算

博客等级

码龄7年

294
原创

168
点赞

785
收藏

81
粉丝

关注

私信

热门文章

分类专栏

HBase 14篇
技术博客看后摘录
Java 53篇
云计算 6篇
Spark 34篇
好书沉淀
Linux 5篇
Hadoop 20篇
Kafka 13篇
OPS 8篇
计算机网络 12篇
算法 28篇
Redis 12篇
大数据 12篇
Zookeeper 12篇
Hive 23篇
MySQL 24篇
Flink 2篇
Utils 2篇
Flume 4篇
Yarn 4篇
Git 1篇
Elastic Search 3篇
Storm 4篇

展开全部收起

上一篇：: ZooKeeper与CAP

下一篇：: Scala与java

最新评论

MySQL 窗口函数/视图
傲--苍天: PERCENT_CONT，我再自己电脑上安装的社区版8.0.36，select PERCENTILE_CONT(0.85) within group (order by 成绩) from a 结果这个函数报错，SQL 错误 [1064] [42000]: You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '(order by 成绩) from a LIMIT 0, 200' at line 1；这个是什么情况，怎么解决呀

大家在看

最新文章

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。