MapReduce介绍

最新推荐文章于 2023-05-17 21:39:54 发布

ejasonyang

最新推荐文章于 2023-05-17 21:39:54 发布

阅读量417

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.youkuaiyun.com/ejasonyang/article/details/102783023

大数据专栏收录该内容

1 篇文章

订阅专栏

一、MapReduce 简介
HDFS，MapReduce 都是Hadoop的组件。

MapReduce采用分而治之的思想，把操作的大数据集分割成一个个小数据集，由主节点管理的各个分节点分别处理，再通过整合各个分节点的结果，得到最终的结果。

整个过程用户只需要实现2个函数，即map和reduce。
1）map：处理分割后的小数据集，输出 <key, value> 集合作为中间结果。
2）reduce：相同key（或key中的一部分相同，可自定义）的中间结果会被分配给同一个reduce处理，reduce可以把相同key的value做需要的合并操作，并输出作为最终结果。
现实世界中，能抽象为上述处理过程的大数据集问题，都可以用map-reduce框架解决。

一个MapReduece任务大致分为下述4个阶段：
map func-------shuffle--------sort（reduce端，从所有map拉取数据后按key排序）---------reduce func
shuffle：大致是对map输出的每个<key, value>，使用key或key的一部分计算partition（即该<key, value>应该被分配给哪个reduce task），及reduce task从map节点拉取数据的过程。

二、编程接口
Hadoop的MapReduce 和 HDFS使用JAVA实现，默认提供JAVA编程接口。另外提供了C++编程接口和Streaming框架。Streaming框架允许使用任意语言实现map 和
reduce函数。

JAVA编程接口提供的支持比较全面，事实上Streaming方式提交任务时指定的很多参数都是JAVA类，比如-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 指定的KeyFieldBasedPartitioner 就是一个JAVA类。

三、重要知识点
-cacheFile / -cacheArchive：指定hdfs上的大文件 / 大压缩文件。straming方式提交job时，如果用到的文件太大，建议先把文件上传到hdfs，再根据是否是压缩文件选择参数，hadoop会并行的将文件拷贝到任务节点上。

CombineTextInputFormat：适用于处理小文件，避免为每个小文件生成一个map任务浪费资源，这种输入格式每个map任务会处理多个小文件。（如果小文件-jobconf combineinput.pool.filters 配合这个参数，为小文件分组，使得每个map任务处理的都是相同类型的文件）。

多路输出：SuffixMultipleTextOutputFormat

straming常用的环境变量：
map_input_file ：当前map task处理的第一个文件的绝对路径，仅map任务可见。
mapred_input_dir：用户指定的输入路径
mapred_task_id：当前task的attempt id，如：attempt_201207171155_0009_m_000001_0
mapred_task_is_map：当前运行的是map task还是reduce task，如：map task获取此变量则为true

Partitioner：可以指定按key的哪些部分做partition。也可以自定义partition类是实现想要的partition方式。

Comparator：key的排序方式，可以指定按key的哪些部分如何排序（字母序，数字序，正序逆序等）

Combiner：和reduce func功能相同，只是再map节点做reduce，减少map到reduce的数据传输。需要自己实现。

Streaming方式计数和状态汇报
Streaming程序通过向标准错误流写入特殊格式的字符串进行计数和状态汇报。
计数的格式如下：
reporter:counter:,,
状态汇报的格式如下：
reporter:status:

#!/bin/bash
while read line
do
    echo "$line"
    echo "reporter:counter:MapCounter,ReadCounter,1" >&2
    echo "reporter:status:read one line" >&2
done

Straming提交Job格式
示例：
hadoop streaming
-input /home/mr/wuyunyun/testfile
-output /home/mr/wuyunyun/output
-mapper “php map.php”
-reducer “php reduce.php”
-jobconf mapred.reduce.tasks=1
-file ./map.php
-file ./reduce.php
-jobconf mapred.job.name=wuyunyun_wordcount
注意："\"是换行，换行符前务必只保留一个空格