MapReduce介绍

一、MapReduce 简介
HDFS,MapReduce 都是Hadoop的组件。

MapReduce采用分而治之的思想,把操作的大数据集分割成一个个小数据集,由主节点管理的各个分节点分别处理,再通过整合各个分节点的结果,得到最终的结果。

整个过程用户只需要实现2个函数,即mapreduce
1)map:处理分割后的小数据集,输出 <key, value> 集合作为中间结果。
2)reduce:相同key(或key中的一部分相同,可自定义)的中间结果会被分配给同一个reduce处理,reduce可以把相同key的value做需要的合并操作,并输出作为最终结果。
现实世界中,能抽象为上述处理过程的大数据集问题,都可以用map-reduce框架解决。

一个MapReduece任务大致分为下述4个阶段:
map func-------shuffle--------sort(reduce端,从所有map拉取数据后按key排序)---------reduce func
shuffle:大致是对map输出的每个<key, value>,使用key或key的一部分计算partition(即该<key, value>应该被分配给哪个reduce task),及reduce task从map节点拉取数据的过程。

二、编程接口
Hadoop的MapReduce 和 HDFS使用JAVA实现,默认提供JAVA编程接口。另外提供了C++编程接口和Streaming框架。Streaming框架允许使用任意语言实现map 和
reduce函数。

JAVA编程接口提供的支持比较全面,事实上Streaming方式提交任务时指定的很多参数都是JAVA类,比如-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 指定的KeyFieldBasedPartitioner 就是一个JAVA类。

三、重要知识点
-cacheFile / -cacheArchive:指定hdfs上的 大文件 / 大压缩文件。straming方式提交job时,如果用到的文件太大,建议先把文件上传到hdfs,再根据是否是压缩文件选择参数,hadoop会并行的将文件拷贝到任务节点上。

CombineTextInputFormat:适用于处理小文件,避免为每个小文件生成一个map任务浪费资源,这种输入格式每个map任务会处理多个小文件。(如果小文件-jobconf combineinput.pool.filters 配合这个参数,为小文件分组,使得每个map任务处理的都是相同类型的文件)。

多路输出:SuffixMultipleTextOutputFormat

straming常用的环境变量
map_input_file : 当前map task处理的第一个文件的绝对路径,仅map任务可见。
mapred_input_dir:用户指定的输入路径
mapred_task_id:当前task的attempt id,如:attempt_201207171155_0009_m_000001_0
mapred_task_is_map:当前运行的是map task还是reduce task,如:map task获取此变量则为true

Partitioner:可以指定按key的哪些部分做partition。也可以自定义partition类是实现想要的partition方式。

Comparator:key的排序方式,可以指定按key的哪些部分如何排序(字母序,数字序,正序逆序等)

Combiner:和reduce func功能相同,只是再map节点做reduce,减少map到reduce的数据传输。需要自己实现。

Streaming方式计数和状态汇报
Streaming程序通过向标准错误流写入特殊格式的字符串进行计数和状态汇报。
计数的格式如下:
reporter:counter:,,
状态汇报的格式如下:
reporter:status:

#!/bin/bash
while read line
do
    echo "$line"
    echo "reporter:counter:MapCounter,ReadCounter,1" >&2
    echo "reporter:status:read one line" >&2
done

Straming提交Job格式
示例:
hadoop streaming
-input /home/mr/wuyunyun/testfile
-output /home/mr/wuyunyun/output
-mapper “php map.php”
-reducer “php reduce.php”
-jobconf mapred.reduce.tasks=1
-file ./map.php
-file ./reduce.php
-jobconf mapred.job.name=wuyunyun_wordcount
注意:"\"是换行,换行符前务必只保留一个空格

### MapReduce框架介绍及原理 MapReduce是一种用于处理和生成大规模数据集的分布式计算框架,它通过将分布式程序中的公共功能封装成框架,使得开发人员可以专注于业务逻辑的实现[^1]。该框架的核心思想是将任务分为两个主要阶段:**Map** 和 **Reduce**。 #### 1. MapReduce的核心思想 MapReduce的核心思想是将一个大任务分解为多个小任务,并行地在集群中的不同节点上执行。具体来说,输入数据会被分割成多个小块,每个小块由一个Map任务处理。Map任务的主要职责是对输入数据进行处理并输出一系列中间键值对。这些中间键值对会被系统自动分组,相同键的值会被聚合在一起,然后传递给Reduce任务进行进一步处理[^2]。 #### 2. MapReduce的工作流程 MapReduce的工作流程可以分为以下几个部分: - **Input Split**: 输入数据被分割成多个小块(称为Split),每个Split会被分配给一个Map任务。 - **Map阶段**: 每个Map任务读取Split中的数据,对其进行处理,并输出一系列中间键值对。 - **Shuffle和Sort**: 系统会自动对Map阶段产生的中间键值对进行排序,并将相同键的值聚合在一起。这一过程被称为Shuffle和Sort。 - **Reduce阶段**: Reduce任务接收经过排序和聚合后的中间键值对,对其进行进一步处理,并输出最终结果[^3]。 #### 3. MapReduce的优势 MapReduce框架的主要优势在于它能够屏蔽分布式计算中的复杂性,使得开发人员可以专注于业务逻辑的实现。此外,通过将单机版程序扩展到集群来分布式运行,MapReduce极大地提高了程序的处理能力和效率,同时降低了开发难度[^3]。 #### 4. 示例代码 以下是一个简单的MapReduce示例,用于统计文本中单词的出现次数: ```python # Mapper函数 def mapper(line): for word in line.strip().split(): yield (word, 1) # Reducer函数 def reducer(key, values): yield (key, sum(values)) # 主程序 if __name__ == "__main__": # 模拟输入数据 input_data = ["hello world", "hello hadoop", "hello world"] # Map阶段 intermediate = [] for line in input_data: intermediate.extend(mapper(line)) # Shuffle和Sort from collections import defaultdict grouped = defaultdict(list) for key, value in intermediate: grouped[key].append(value) # Reduce阶段 result = [] for key, values in grouped.items(): result.append(reducer(key, values)) # 输出结果 for item in result: print(item) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值