HDFS Erasure Coding

擦除编码(EC)在HDFS中的应用显著提升了存储效率,对于访问频率较低的热和冷数据集而言,相比传统的三副本存储方式,EC不仅减少了存储空间的需求,还保持了相同的数据可靠性水平。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么要使用HDFS Erasure Coding

多副本的存储是昂贵的 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。 然而,对于具有相对较低I / O活动的热和冷数据集,在正常操作期间很少访问附加的块副本,但仍然会消耗和第一个副本相同的资源量
因此,自然的改进是使用擦除编码(EC)代替复制,这提供了相同级别的容错能力,而且存储空间更少。 在典型的擦除编码(EC)设置中,存储开销不超过50%。 EC文件的复制因子是无意义的。 它始终为1,不能通过-setrep命令更改。

出现的背景

在存储系统中,最显着的EC使用是冗余磁盘阵列(RAID)。 RAID通过条带化实现EC,其将逻辑顺序数据(例如文件)分割成较小的单元(例如位,字节或块),并将连续的单位存储在不同的磁盘上。 在本介绍的其余部分,这种条纹分布单位称为条纹细胞(或细胞)。 对于原始数据单元的每个条带,计算并存储一定数量的奇偶校验单元 - 其过程称为编码。 可以通过基于幸存数据和奇偶校验单元的解码计算来恢复任何条带单元的错误。
将EC与HDFS集成可以提高存储效率,同时仍然提供与传统基于复制的HDFS部署相似的数据耐久性。 例如,具有6个块的3x复制文件将消耗6 * 3 = 18个磁盘空间块。 但是使用EC(6个数据,3个奇偶校验)部署,它只消耗9个磁盘空间块
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值