MapReduce编程模型

在这里插入图片描述

如图所示,上图就是mapreduce的编程模型。

MapReduce的流程分为5个阶段:

输入文件 > Map > 中间文件 > Reduce阶段 > 输出文件

  • 步骤1 启动子进程

    用户程序会启动两类子进程。第一类是Master子进程,负责任务分配与状态管理,Master子进程全局只有一个。第二类子进程是worker进程,worker子进程有两个阶段,一个阶段是Map阶段,一个阶段是Reduce阶段。worker进程会先处于Map阶段,等所有的Map任务都完成之后,再进入Reduce阶段。

  • 步骤2 任务分配

    包括给map阶段的worker分配任务,以及给reduce阶段的worker分配任务。分配任务时,由worker通过rpc来主动调用Master的任务分配函数。由于worker是先执行Map,再执行Reduce,所以在分配任务时,先分配Map任务,待Map任务执行完成之后,再分配Reduce任务。

  • 步骤3 读取数据

    Map阶段是将一组键值对,转换成另外一组键值对。所以先需要将输入文件读取进内存,转换成键值对的格式,然后将该键值对组给Map函数,得到另外一组键值对 输出。

  • 步骤4 中间文件写入

    Map阶段的输出会被保存下来,保存到中间文件中。

  • 步骤5 读取中间文件

    Reduce阶段也是将一组键值对转换成另外一组键值对。所以需要先将Map阶段产生的中间文件读取进内存,转成键值对形式。

  • 步骤6 输出

    经过Reduce阶段,产生最终的输出,将输出写入到输出文件。

上述过程中,对文件的读取与写入,都是分布式的,如GFS等

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一朝英雄拔剑起

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值