MapReduce中map阶段和reduce阶段以及shuffle过程内部工作机制记录
1.mapTask工作原理:我们在写job任务时,指定一个FileInputFormat,设置一个路径,FileInputFormat类继承InputFormat(一个抽象接口),里面提供了一个抽象方法getSplits(),FileInputFormat中重写该方法的逻辑,对文件进行切分成多个split,然后通过RecordReader(默认使用lineRecordReader)按行进行读取文件内容并交给map去执行自己写的逻辑进行处理,被map处理之后的数据会交给OutputCollector收集器
原创
2020-08-18 16:46:31 ·
2115 阅读 ·
0 评论