MapReduce工作机制
执行流程
流程:代码编写 -> 作业配置 -> 作业提交 -> Map任务的分配和执行 -> 处理中间结果 -> Reduce任务的分配和执行 -> 作业完成
客户端:~
jobtracker:~
tasktracker:~
hdfs:~
提交作业
MapReduce被提交之后就会自动执行,所以提交前要配置好。
1.mapreduce主体代码
2.map输出的k-v类型,要和reduce接受的k-v类型一样
3.输入和输出路径:
FileInputFormat.addInputPath(job,new Path(~))
FileOutputFormat.addOutputPath(job,new Path(~))
4.inputFormat、outputFormat,名称类型等
获取作业ID,计算输入划分由jobclient写到job.split中,复制资源到HDFS上,调用JobTracker的submitJob()
初始化作业
JobTracker读取job.split信息
创建Map和Reduce
分配任务
TaskTracker作为一个单独的JVM。
TaskTarcker和JobTracker的通信:
transmitHeartBeat()向Job~发送心跳
heartbear():检测是否请求新的任务,向Task~返回通信信息
执行任务
在接收到一个新任务是,首先要将任务本地化,把相关的资源复制到Tasktracker本地调用launchTask()方法启动任务
更新任务执行进度和状态
通过jobClient.monitorAndPrintJob()方法来监控作业进度
调度机制
FIFO+公平调度器+容量调度器
Shuffle和排序
shuffle = partition(分区) + sort(排序) + spill(分割) + merge(合并)
Map端:map的输出结果由collector处理,即map端的shuffle包含在collect函数中输出缓冲区的内容达到阀值是就会调用sortAndSpill然后combine生产spill文件输出到磁盘,再对spill文件进行mergeParts后等待最后一条记录写完,map的shuffle执行完。
reduce端:
reduce会从jobtarcker获取map输出位置,然后把结果复制会本地,在复制的同时会进入mergeSort(合并和排序),最后就是reduce