MapReduce介绍

MapReduce原理与应用
1. 介绍
MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。

如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。
[img]http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/figure1.jpg[/img]

2. 例子
设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
map(String key, String value):
//key: document name
//value: document contents
for each word w in value:
EmitIntermediate(w, "1");

reduce(String key, Iterator values):
//key: a word
//values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v):
Emit(AsString(result));

假如输入是两篇文档:
A--"MapReduce is a programming model"
B--"MapReduce is easy to use"

map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
(MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。

系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
(MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。

reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
(MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。

这样,每个单词出现的频率就统计出来了。

3. 实现
Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linux cluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。

在MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r 个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。

Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个 map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。

4. 总结
限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。

这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。
### MapReduce框架介绍及原理 MapReduce是一种用于处理和生成大规模数据集的分布式计算框架,它通过将分布式程序中的公共功能封装成框架,使得开发人员可以专注于业务逻辑的实现[^1]。该框架的核心思想是将任务分为两个主要阶段:**Map** 和 **Reduce**。 #### 1. MapReduce的核心思想 MapReduce的核心思想是将一个任务分解为多个小任务,并行地在集群中的不同节点上执行。具体来说,输入数据会被分割成多个小块,每个小块由一个Map任务处理。Map任务的主要职责是对输入数据进行处理并输出一系列中间键值对。这些中间键值对会被系统自动分组,相同键的值会被聚合在一起,然后传递给Reduce任务进行进一步处理[^2]。 #### 2. MapReduce的工作流程 MapReduce的工作流程可以分为以下几个部分: - **Input Split**: 输入数据被分割成多个小块(称为Split),每个Split会被分配给一个Map任务。 - **Map阶段**: 每个Map任务读取Split中的数据,对其进行处理,并输出一系列中间键值对。 - **Shuffle和Sort**: 系统会自动对Map阶段产生的中间键值对进行排序,并将相同键的值聚合在一起。这一过程被称为Shuffle和Sort。 - **Reduce阶段**: Reduce任务接收经过排序和聚合后的中间键值对,对其进行进一步处理,并输出最终结果[^3]。 #### 3. MapReduce的优势 MapReduce框架的主要优势在于它能够屏蔽分布式计算中的复杂性,使得开发人员可以专注于业务逻辑的实现。此外,通过将单机版程序扩展到集群来分布式运行,MapReduce极大地提高了程序的处理能力和效率,同时降低了开发难度[^3]。 #### 4. 示例代码 以下是一个简单的MapReduce示例,用于统计文本中单词的出现次数: ```python # Mapper函数 def mapper(line): for word in line.strip().split(): yield (word, 1) # Reducer函数 def reducer(key, values): yield (key, sum(values)) # 主程序 if __name__ == "__main__": # 模拟输入数据 input_data = ["hello world", "hello hadoop", "hello world"] # Map阶段 intermediate = [] for line in input_data: intermediate.extend(mapper(line)) # Shuffle和Sort from collections import defaultdict grouped = defaultdict(list) for key, value in intermediate: grouped[key].append(value) # Reduce阶段 result = [] for key, values in grouped.items(): result.append(reducer(key, values)) # 输出结果 for item in result: print(item) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值