HDFS块(block)、副本数(replication)的概念

HDFS文件以块形式存储,块大小通常设为128M,基于磁盘寻址时间和传输速率的最佳性价比。块大小需平衡灵活性、网络消耗、元数据空间占用及寻址时间。过大可能导致读取不灵活,过小则增加元数据负担和寻址成本。配置文件hdfs-site.xml中可调整这些参数。固态硬盘环境下,块大小可能调整为256M或512M。文件分块存储时,多余副本用于容错,但故障可能导致资源浪费。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

HDFS的文件在物理上是分块储存(Block)默认大小是128M,老版本64M。

不论对磁盘的文件进行读还是写,都需要先进行寻址!

最佳传输损耗理论: 寻址时间占总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!

 

目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!

10ms / 1% = 1s

1s * 100M/S=100M

块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!

如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M

如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M

 

不能太大:

当前有文件a, 1G

128M一块 1G存8块 , 取第一块

1G一块 1G存1块 , 取第一块

只需要读取a文件0-128M部分的内容

①在一些分块读取的场景,不够灵活,会带来额外的网络消耗

②在上传文件时,一旦发生故障,会造成资源的浪费

不能太小:

文件a,128M

1M一块: 128个块,生成128个块的映射信息

128M一块, 1个块,一个块的映射信息

①块太小,同样大小的文件,会占用过多的NN的元数据空间

②块太小,在进行读写操作时,会消耗额外的寻址时间

block 块的大小 等于1s*100MB/s=100M 所以设置128M

主要取决于磁盘传输速度

 

配置文件 :hdfs-site.xml

<property> 
<name>dfs.replication<name> 
<value>3<value> //副本数
<description>Block Replication<description> 
<property>
<property> 
<name>dfs.block.size<name> 
<value>134217728<value> //块大小(k)
<description>Block size<description> 
<property>

134217728 *1024*1024 =128M

如果一个文件138M,将文件以块的方式分割,去存储,怎样实现?

实际存储        大小   副本
块A: 128M      128M  A0 A1 A2
块B: 10M        128M  B0 B1 B2

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值