然后我们再来看看这个CombineTextInputFormat,可以看到TextInputFormat这个组件,无论是文件有多少,
文件有多小,都会被单独切片成一片,然后分配给一个maptask,如果有大量要处理的小文件的话,就会产生大量的
mapTask,极其消耗资源,并且处理效率很低.
但是CombineTextInputFormat可以把多个小文件合并分配给一个maptask,这样来节省资源,提高处理效率.
但是CombineTextInputFormat的切片过程包括,虚拟存储过程和切片过程,两个部分
举个例子看一下CombineTextInputFormat的切片过程,比如我们设置最大的切片大小是4m,那么
我现在有4个文件,a.t