HDFS 文件格式、云存储与 Hadoop MapReduce 基础介绍
1. 纠删码与文件格式概述
纠删码(Erasure coding)提供了一种更高效管理存储容量的新方式。以 RS - 6 - 3 - 64k 为例,它采用里德 - 所罗门算法,有 6 个数据块和 3 个奇偶校验块,编码单元为 64KB。设置纠删码目录的操作步骤如下:
$ bin/hadoop fs -mkdir /ecdir
$ bin/hdfs erasure code -setPolicy
$ bin/hdfs erasurecode -setPolicy -p RS-6-3-64k /ecdir
设置成功后,在 /ecdir 上存放的所有新数据将根据纠删码算法自动创建。可以使用以下命令查看策略:
$ bin/hdfs erasurecode -getPolicy /ecdir
HDFS 可以存储任何类型的数据,包括二进制格式的文本数据、图像或音频文件。为了在 HDFS 中选择合适的文件格式,需要考虑以下因素:
| 考虑因素 | 说明 |
| ---- | ---- |
| 查询引擎 | 若 SQL 引擎不支持 ORCFile,则不能使用该格式,需选择查询引擎或应用框架支持的存储文件格式。 |
| 更新频率 | 列存储格式不适合高频更新的数据,因为它需要使用整个文件。 |
| 可拆分性 | 数据必须可拆分才能为每个任务进行分布式处理
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



