MapReduce原理(一)

MapReduce编程模型简化了大数据处理,使用者只需关注Map和Reduce函数。在文件词频统计实例中,HDFS将数据块转化为<key(位置), value(每行文本)>,Map阶段进行分词并输出<key(词), value(1)>,Reduce阶段进行计数,最终得到每个词的出现次数。详细步骤可参考相关文章。" 111846142,10293958,Excel多表合并教程:一键合并同一文件夹下所有Excel,"['Excel技巧', '数据整合', '宏编程']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce 编程模型
使用者只需要对Map()和Reduce()进行编程

在这里插入图片描述
多个<key,value集合>根据key,每个Key分一个reduce在这里插入图片描述
在这里插入图片描述

实例解释:文件词频统计
hdfs处理 文件为数据块
图片来自极客时间--从0开始学大数据

  • 框架将hdfs处理的数据块处理为<key(位置),value(每行文本)>的模式
    【eg.<0,Hello World> <12, Bye World>】

  • map(2个):
    一个block的过程:
    1.<key(位置),value(每行文本)>输入到map函数中
    【eg.<0,Hello World> <12, Bye World>】
    2.map函数对每个<key,value>的value分词
    3.输出形成<key(每个词),value(1)>
    【eg.<Hello,1> <World,1> <Bye,1> <World,1>】
    4.再merge为 <key,value集合>
    【eg.<Hello,<1>>,<World,<1,1>>,<Bye,<1>>】
    同理另一个Block:<Hello,<1>>,<Hadoop,<1,1>>,<Bye,<1>>

  • 在进入reduce前,多个block的结果merge:
    <Hello,<1,1>>, <World,<1,1>>, <Hadoop,<1,1>>, <Bye,<1,1>>

  • reduce(4个)
    <Hello,<1,1>>的过程
    1.合并后的<key,value集合>输入到reduce函数
    2.reduce函数计数
    3.输出形成 多个<key,value>
    【eg. <Hello,2>】
    同理其他key:<World,2>, <Hadoop,2>, <Bye,2>

  • 结果传给hdfs

细化的原理步骤,有篇文章很好:
https://www.cnblogs.com/yx-zhang/p/9572221.html
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值