MapReduce原理(一)

最新推荐文章于 2025-12-04 08:52:08 发布

原创最新推荐文章于 2025-12-04 08:52:08 发布 · 161 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce

大数据专栏收录该内容

11 篇文章

订阅专栏

MapReduce编程模型简化了大数据处理，使用者只需关注Map和Reduce函数。在文件词频统计实例中，HDFS将数据块转化为<key(位置), value(每行文本)>，Map阶段进行分词并输出<key(词), value(1)>，Reduce阶段进行计数，最终得到每个词的出现次数。详细步骤可参考相关文章。" 111846142,10293958,Excel多表合并教程：一键合并同一文件夹下所有Excel,"['Excel技巧', '数据整合', '宏编程']

MapReduce 编程模型
使用者只需要对Map()和Reduce()进行编程

在这里插入图片描述
多个<key,value集合>根据key,每个Key分一个reduce

实例解释：文件词频统计
hdfs处理文件为数据块
图片来自极客时间--从0开始学大数据

框架将hdfs处理的数据块处理为<key(位置),value(每行文本)>的模式
【eg.<0，Hello World> <12, Bye World>】
map(2个)：
一个block的过程：
1.<key(位置),value(每行文本)>输入到map函数中
【eg.<0，Hello World> <12, Bye World>】
2.map函数对每个<key,value>的value分词
3.输出形成<key(每个词),value（1）>
【eg.<Hello,1> <World,1> <Bye,1> <World,1>】
4.再merge为 <key,value集合>
【eg.<Hello,<1>>,<World,<1,1>>,<Bye,<1>>】
同理另一个Block：<Hello,<1>>,<Hadoop,<1,1>>,<Bye,<1>>
在进入reduce前，多个block的结果merge：
<Hello,<1,1>>, <World,<1,1>>, <Hadoop,<1,1>>, <Bye,<1,1>>
reduce（4个）
<Hello,<1,1>>的过程
1.合并后的<key,value集合>输入到reduce函数
2.reduce函数计数
3.输出形成多个<key,value>
【eg. <Hello,2>】
同理其他key:<World,2>, <Hadoop,2>, <Bye,2>
结果传给hdfs