然后我们来看MapReduce的框架原理,这里是很重要的,其中MapTask用来处理map阶段的任务,
然后reduceTask用来处理reduce阶段的任务.
那么MapTask主要做了什么事呢?首先他决定了,数据输入的格式,比如,默认的输入可是是k,v的
格式,这里的k,就是输入文本中的,行号,也叫偏移量,然后v是一行的内容.
那么问题来了,既然默认的maptask的读入数据的格式是k,v格式的,而且k就是偏移量就是行号,v
就是一行的内容,那么可不可以修改呢,比如想让他按照自己想要的格式读入,其实是可以的,这里有个
组件是InputFormat组件,这个组件就是输入格式组件,这个就允许我们自己定义读入数据的格式.
然后MapTask通过InputFormat组件,