17、Hadoop数据组织与压缩优化指南

Hadoop数据组织与压缩优化指南

1. 处理Hadoop中的小文件问题

在Hadoop中直接使用小文件会导致NameNode内存占用过大,MapReduce作业运行缓慢。为解决此问题,可以采用以下方法:
- 生成多个zip文件 :尽量使zip文件大小接近HDFS块大小。
- 使用CombineFileInputFormat :将多个输入分片(跨多个文件)输入到单个map任务中,减少所需的map任务数量。
- 创建tarball文件 :将所有文件打包成一个tarball文件,并创建一个包含该tarball文件在HDFS中位置的文本文件,作为MapReduce作业的输入。但这种方法会绕过MapReduce的局部性,可能导致不必要的网络I/O。
- 使用Hadoop Archive文件(HARs) :这是一种专门为解决小文件问题而创建的Hadoop文件,是位于HDFS之上的虚拟文件系统。不过,HAR文件无法针对MapReduce中的本地磁盘访问进行优化,也不能进行压缩。
- 使用HDFS Federation :Hadoop 2版本支持HDFS Federation,它将HDFS划分为多个不同的命名空间,每个命名空间由单独的NameNode独立管理,从而可以支持更多的小文件。
- 使用MapR分布式文件系统 :MapR提供的Hadoop发行版有自己的分布式文件系统,支持大量小文件。但迁移到MapR会对系统造成较大改变,因此不太可能为解决HD

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值