0)需求:将输入的大量小文件合并成一个切片统一处理。
1)输入数据:准备5个小文件
2)实现过程
(1)不做任何处理,运行需求1中的wordcount程序,观察切片个数为5

(2)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为1
|

本文介绍如何通过调整MapReduce作业设置,将多个小文件合并处理以减少切片数量,提高处理效率。具体包括使用CombineTextInputFormat及设置最大最小输入切片大小。
0)需求:将输入的大量小文件合并成一个切片统一处理。
1)输入数据:准备5个小文件
2)实现过程
(1)不做任何处理,运行需求1中的wordcount程序,观察切片个数为5

(2)在WordcountDriver中增加如下代码,运行程序,并观察运行的切片个数为1
|

3510
1868
483

被折叠的 条评论
为什么被折叠?