Hadoop数据组织与压缩优化指南
1. 处理Hadoop中的小文件问题
在Hadoop中直接使用小文件会导致NameNode内存占用过高,MapReduce作业运行缓慢。可以采用以下方法来缓解这些问题:
- 生成多个zip文件 :尽量使zip文件接近HDFS块大小。
- 使用CombineFileInputFormat :将多个输入分片(跨多个文件)提供给单个map任务,减少所需的map任务数量。
- 创建tarball文件 :将所有文件包含在一个tarball文件中,并创建一个单独的文本文件,包含tarball文件在HDFS中的位置。但这种方法会绕过MapReduce的本地性,可能导致不必要的网络I/O。
- 使用Hadoop Archive文件(HARs) :这是专门为解决小文件问题而创建的Hadoop文件,是位于HDFS之上的虚拟文件系统。但它不能针对MapReduce中的本地磁盘访问进行优化,也不能进行压缩。
- 使用HDFS Federation :HDFS被划分为多个不同的命名空间,每个命名空间由单独的NameNode独立管理,从而支持更多的小文件。
- 使用MapR分布式文件系统 :MapR提供的Hadoop发行版有自己的分布式文件系统,支持大量小文件。但迁移到MapR会对系统造成较大改变。
这里推荐使用Avro来存储多个小二进制文件,因为它支持可分割文件和压缩,并且有表达性强的模式语言,有助于版本控制。 <
Hadoop数据组织与压缩优化指南
超级会员免费看
订阅专栏 解锁全文
784

被折叠的 条评论
为什么被折叠?



