Hadoop3.x使用CombineTextInputFormat实现小文件合并

QYHuiiQ

于 2022-07-24 21:29:44 发布

阅读量1.4k

点赞数 2

分类专栏：大数据之Hadoop 文章标签： hadoop 大数据分布式

本文链接：https://blog.youkuaiyun.com/QYHuiiQ/article/details/125963765

版权

大数据之Hadoop 专栏收录该内容

58 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了在Hadoop中，面对大量小文件导致的资源浪费问题，通过使用CombineTextInputFormat来合并小文件，减少MapTask的数量，从而优化资源利用率。通过实例展示了未使用和使用CombineTextInputFormat的区别，以及如何配置和运行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在hadoop中对文件进行切片时，默认使用TextInputFormat中的切片机制，即按文件进行切片，不管文件大小，每个文件都会是一个单独的切片，并且每个文件/切片都会由一个单独的MapTask进行处理，但是这种切片机制会造成一个问题，如果有大量的小文件，那么也就要分配大量的MapTask，但每个文件的数据量又很小，光是启动MapTask的过程就会消耗大量的资源，这样显然是不合理的。所以针对小文件过多的情况，我们可以尝试用CombineTextInputFormat来进行处理，它可以将众多的小文件从逻辑上划分为较少的切片，这样只需要启动较少的MapTask即可。

我们可以先不指定切片机制，使用它默认的TextInputFormat来测试一下看看有几个切片：

准备5个小文件并上传至HDFS

[root@hadoop301 testdata]# pwd
/usr/local/wyh/software/hadoop-3.1.3/testdata
[root@hadoop301 testdata]# ls -lr
total 20
-rw-r--r--. 1 root root 381 Jul 24 08:39 testcombine5.txt
-rw-r--r--. 1 root root 351 Jul 24 08:38 testcombine4.txt
-rw-r--r--. 1 root root  24 Jul 24 08:37 testcom