Hadoop小文件问题与解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/Si_kenn/article/details/111396627

本文探讨了Hadoop中处理大量小文件带来的问题，包括NameNode元数据占用过大和MapReduce任务效率低下。提出了Hadoop Archive (HAR) 和SequenceFile作为解决方案，并介绍了CompositeInputFormat用于优化MapReduce任务。HAR可以打包小文件减少NameNode负担，但不支持文件变更；SequenceFile用于存储key-value对，适用于合并小文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.概述

每个小文件无论多小都会对应一个block,而每一个小文件在NameNode中都要有元数据的记录,如果存在大量小文件,则NameNode中的大量空间都用来存放这些小文件的元数据信息,其实是相当浪费的,对于NameNode的性能有比较大的影响
当使用MapReduce处理大量小文件时,默认情况下MapReduce在进行切片操作时规则是和block切的规则一样,即一个block对应一个inputSplit,而一个InputSplit就对应一个Mapper,这样会造成开启大量的MapperTask,但是每个MapperTask处理的数据量都很有限.极端情况下,开启大量Mapper耗费内存,甚至可能造成程序的崩溃.

二.解决方案

Hadoop Archive

Archive简称为HAR,是一个高效的将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件,这样在减少NameNode内存使用的同时,仍然允许对文件进行透明的访问
HAR是在Hadoop File System之上的一个文件系统,因此所有fs shell命令对HAR文件均可用,只不过是文件路径格式不一样,HAR的访问路径可以是两种格式:

har://scheme-hostname:port/archivepath/fileinarchive

har:///archivepath/fileinarchive(本节点)

注意事项

对小文件进行存档后,原文件并不会自动被删除,需要用户自己删除
创建HAR文件的过程实际上是在运行一个MapReduce作业,因而需要有一个Hadoop集群运行此命令

缺点

一旦创建,Archives便不可改变.要增加或移除里面的文件,必须重新创建归档文件
要归档的文件名中不能有空格,否则会抛出异常,可以将空格用其他符合替换(使用-Dhar.space.replacement.enable=true和-Dhar.space.replacement参数).

指令

将某个文件打成har: hadoop archive -archiveName test.har -p /test/test.txt /test
将多个test开头的文件打成har: hadoop archive -archiveName test.har -p /test/test* /test
将某个文件夹下所有文件打成har: hadoop archive -archiveName test.har -p /test /test
查看HAR文件存档中的文件: hadoop fs -ls har:///test/test.har 输出har文件内容到本地系统: hadoop fs -get har:///test/test.har/testx

SequenceFile

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种屏幕文件(Flat File).
目前,也有不少人在该文件的基础之上提出了一些HDFS中小文件存储的解决方案,他们的基本思路就是将小文件进行合并成一个大文件,同时对这些小文件的位置信息构建索引
文件不支持复写操作,不能向已存在的SequenceFile(MapFile)追加存储记录
当write流不关闭的时候,没有办法构造read流.也就是在执行文件写操作的时候,该文件是不可读取的

CompositeInputFormat

用于多个数据源的join
此类可以解决多个小文件在进行MapReduce操作时,map创建过多的问题
此类的原理在于,它本质上是一个InputFormat,在其中的getSplits方法中,将它能读到的所有的文件生成一个InputSplit
使用此类需要配合自定义的RecordReader,需要自己开发一个RecordReder指定如何从InputSplit中读取数据
也可以通过参数控制最大的InputSplit大小 – CombineTextInputFormat.setMaxInputSplitSize(job,25610241024)