一文让你深入了解MapReduce-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39452753/article/details/105883812

本文深入讲解MapReduce编程模型，包括其定义、任务处理流程、Map和Reduce阶段的作用及数据来源，通过WordCount案例生动演示MapReduce工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一文让你深入了解MapReduce

标题取得好，阅读量少不了。

定义

$M a p R e d u c e$ 是一种可用于数据处理的编程模型， $M a p R e d u c e$ 程序本质上是并行运行的，因此可以将大规模的数据分析数据分析分发给任何一个足够多的机器的数据中心。

任务处理的两个阶段

$M a p R e d u c e$ 任务过程分成两个阶段处理：Map阶段和Reduce阶段 ~~（就这？？？)~~ ，每个阶段都以键值对 $K e y - V a l u e$ 的形式作为输入和输出，键值对的类型由程序猿自己来决定，此外， $和 M a p 和 R e d u c e$ 具体业务逻辑也由程序员编写，换句人话说：你需要 $Reduce和Map\ 和 \ Reduce$ 做什么，你就写什么。

Map的主要作用

$M a p$ ：映射过程，把一组数据按照某种 $M a p$ 函数映射成新的数据，~~什么！看不懂？？~~ 通俗的来讲，就是给你一个原始的数据，你把他按照某种操作处理成你需要的东西。

举个栗子：

你要做一个西红柿汤，原始数据给你西红柿，那么你就要对西红柿加工成你需要的一个样子，比如，切成西红柿片，肯定会有杠精说我 $T M$ 就爱煮整个西红柿，小伙你可以去新x方。

Reduce的主要作用

$R e d u c e$ ：归约过程，把若干组映射结果进行汇总并输出。在用人话讲，就是你得到数据后，在这里加工得到结果。

在举个栗子：

我现在通过上面的 $M a p$ 得到了西红柿片，现在 $R e d u c e$ 就将西红柿加工，比如，直接烧水将西红柿片放进去，然后煮熟了再倒进碗里，至于好不好吃，就看你处理的过程够不够好， $Q A Q$ 。

Map和Reduce的数据来源

一般来说： $M a p$ 通过读取 $H D F S$ 的数据，然后通过一顿骚操作，将这个数据处理成我们想要的结果后，将这个结果作为$\ Reduce\ $的输入， $R e d u c e$ 产生的结果一般会再写回 $H D F S$

图例

WordCount案例——堪称经典

假设有一下对话，需要你统计各个单词出现的数量，我们来使用 $M a p R e d u c e$ 来模拟一下。

what's your name
what
what's your name
Tom Tom Tom
fu*k u Tom

$M a p$ 首先读入每一行数据，然后开始处理业务逻辑，我们这里需要统计各个单词，于是我们可以将每一行通过空格分隔出一个字符数组，我们需要的结果是单词出现的个数，于是我们直接将这个单词数组每个元素作为 $k e y$ ，以数字 $1$ 作为 $v a l u e$ ，
```
what's: 1
your  : 1
name  : 1
```
有人就会问了，这里不需要统计每个出现的个数吗？？？

$R e d u c e$ 活都让你干了，我干啥？？？

所有数据通过 $M a p$ 处理后结果如下：

what's: 1
your  : 1
name  : 1
what  : 1
what's: 1
your  : 1
name  : 1
Tom   : 1
Tom   : 1
Tom   : 1
fu*k  : 1
u     : 1
Tom   : 1

上面就是 $M a p$ 的输出结果，在传递给 $R e d u c e$ 之前会通过一个 $s h u f f l e$ 的过程，它是对数据映射的排序、分组、拷贝。

在这里它会将 $k e y$ 相同的分在一起， $v a l u e$ 就变成了一个 $v a l u e$ 的集合
```
what's : [1,1]
your   : [1,1]
name   : [1,1]
what   : [1]
Tom    : [1,1,1,1]
fu*k   : [1]
u      : [1]
```
此时上面的数据会作为 $R e d u c e$ 的输入，此时 $R e d u c e$ 将上去数据加工就可以得到结果，很简单的逻辑，对于每个输入，我们使用一个计数器变量 $c o u n t e r$ 依次遍历整个 $v a l u e s$ 最后将这个 $和 k e y 和 c o u n t e r$ 输出就完成了相应的操作。