这个CombineTextInputFormat的切片机制的作用是,假如你有1000000个小文件的话,如果你用
TextInputFormat他每个小文件都会,创建一个MapTask进行处理,这样的话,就非常的慢了.
这个时候就可以用这个CombineTextInputFormat来处理,这个工具可以把多个小文件,逻辑上
规划到一个切片中,交给一个MapTask进行处理.
然后我们看,如果我们设置了CombineTextInputFormat的最大的大小是4m,那么,是否超过4m就会切片呢? 不一定,来看原理.
可以看到他的原理是这样的,比如我们有4个小文件,那么a.txt,b.txt,c.txt,d.txt 有这4个小文件,
大小分别是 1.7m 5.1m 3.4m 6.8m