Hadoop数据组织与压缩优化指南
1. 处理Hadoop中的小文件问题
在Hadoop中直接使用小文件会导致NameNode内存占用过大,MapReduce作业运行缓慢。为解决此问题,可以采用以下方法:
- 生成多个zip文件 :尽量使zip文件大小接近HDFS块大小。
- 使用CombineFileInputFormat :将多个输入分片(跨多个文件)输入到单个map任务中,减少所需的map任务数量。
- 创建tarball文件 :将所有文件打包成一个tarball文件,并创建一个包含该tarball文件在HDFS中位置的文本文件,作为MapReduce作业的输入。但这种方法会绕过MapReduce的局部性,可能导致不必要的网络I/O。
- 使用Hadoop Archive文件(HARs) :这是一种专门为解决小文件问题而创建的Hadoop文件,是位于HDFS之上的虚拟文件系统。不过,HAR文件无法针对MapReduce中的本地磁盘访问进行优化,也不能进行压缩。
- 使用HDFS Federation :Hadoop 2版本支持HDFS Federation,它将HDFS划分为多个不同的命名空间,每个命名空间由单独的NameNode独立管理,从而可以支持更多的小文件。
- 使用MapR分布式文件系统 :MapR提供的Hadoop发行版有自己的分布式文件系统,支持大量小文件。但迁移到MapR会对系统造成较大改变,因此不太可能为解决HD
超级会员免费看
订阅专栏 解锁全文
806

被折叠的 条评论
为什么被折叠?



