6、HDFS 文件格式、云存储与 Hadoop MapReduce 基础介绍

HDFS 文件格式、云存储与 Hadoop MapReduce 基础介绍

1. 纠删码与文件格式概述

纠删码(Erasure coding)提供了一种更高效管理存储容量的新方式。以 RS - 6 - 3 - 64k 为例,它采用里德 - 所罗门算法,有 6 个数据块和 3 个奇偶校验块,编码单元为 64KB。设置纠删码目录的操作步骤如下:

$ bin/hadoop fs -mkdir  /ecdir
$ bin/hdfs erasure code -setPolicy 
$ bin/hdfs erasurecode -setPolicy -p RS-6-3-64k /ecdir

设置成功后,在 /ecdir 上存放的所有新数据将根据纠删码算法自动创建。可以使用以下命令查看策略:

$ bin/hdfs erasurecode -getPolicy /ecdir

HDFS 可以存储任何类型的数据,包括二进制格式的文本数据、图像或音频文件。为了在 HDFS 中选择合适的文件格式,需要考虑以下因素:
| 考虑因素 | 说明 |
| ---- | ---- |
| 查询引擎 | 若 SQL 引擎不支持 ORCFile,则不能使用该格式,需选择查询引擎或应用框架支持的存储文件格式。 |
| 更新频率 | 列存储格式不适合高频更新的数据,因为它需要使用整个文件。 |
| 可拆分性 | 数据必须可拆分才能为每个任务进行分布式处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值