HDFS的文件在物理上是分块储存(Block)默认大小是128M,老版本64M。
不论对磁盘的文件进行读还是写,都需要先进行寻址!
最佳传输损耗理论: 寻址时间占总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!
目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms!
10ms / 1% = 1s
1s * 100M/S=100M
块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!
如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M
如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M
不能太大:
当前有文件a, 1G
128M一块 1G存8块 , 取第一块
1G一块 1G存1块 , 取第一块
只需要读取a文件0-128M部分的内容
①在一些分块读取的场景,不够灵活,会带来额外的网络消耗
②在上传文件时,一旦发生故障,会造成资源的浪费
不能太小:
文件a,128M
1M一块: 128个块,生成128个块的映射信息
128M一块, 1个块,一个块的映射信息
①块太小,同样大小的文件,会占用过多的NN的元数据空间
②块太小,在进行读写操作时,会消耗额外的寻址时间
block 块的大小 等于1s*100MB/s=100M 所以设置128M
主要取决于磁盘传输速度
配置文件 :hdfs-site.xml
<property>
<name>dfs.replication<name>
<value>3<value> //副本数
<description>Block Replication<description>
<property>
<property>
<name>dfs.block.size<name>
<value>134217728<value> //块大小(k)
<description>Block size<description>
<property>
134217728 *1024*1024 =128M
如果一个文件138M,将文件以块的方式分割,去存储,怎样实现?
实际存储 大小 副本
块A: 128M 128M A0 A1 A2
块B: 10M 128M B0 B1 B2