HDFS 文件块的大小

HDFS中的文件按块存储,块大小通常配置为128M,以平衡寻址和传输时间。寻址时间应为传输时间的1%,在100M/s速率下,128M是最优选择。块大小不宜过大,否则传输延迟可能导致性能瓶颈;过小则增加寻址开销。理解这一设置有助于优化Hadoop集群性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HDFS 文件块的大小

HDFS 中的文件在物理磁盘上是通过分块存储的,块的大小可以通过参数配置(dfs.blocksize)来决定,在 Hadoop >= 2.x 版本中是 128M,老版本是 64M

举个栗子

  1. 假如磁盘的寻址时间约为 10ms,即查找到目标 Block 的时间为 10ms
  2. 根据规定,寻址时间为传输时间的 1%时,为最佳状态。因此传输时间= 10ms / 0.1 = 1s
  3. 若磁盘的传输速率为 100M/s
  4. 那么块的大小最佳为 100M。

以上例子都取的大概值,根据测算,机械硬盘中块的大小最佳为 128M

思考

为什么块的大小不能设置的太大?或者太小?

  1. 如果块的大小设置过于大,寻址时间很快,但是数据传输的时间过于慢,导致程序阻塞等待数据传输,造成性能卡点。
  2. 如果块的大小设置的太小,那么会极大的增加寻址时间。eg:比如块太小,有 100W 个文件,这时寻址需要遍历这 100W 个文件找到对应的文件,就浪费很多时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值