MapReduce计算框架总结

原创于 2025-08-17 14:44:52 发布 · 758 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#mapreduce #大数据

大数据中的MapReduce(MR)计算框架详解

MapReduce是一种用于处理大规模数据集的编程模型和计算框架，由Google在2004年提出，后来被Hadoop等开源项目实现，成为大数据处理的基础技术之一。

一、MapReduce基本概念

1. 核心思想

MapReduce的核心思想是"分而治之"，将大规模数据处理任务分解为两个主要阶段：

Map阶段：将输入数据分割并并行处理
Reduce阶段：对Map阶段的输出进行汇总

2. 设计目标

简化分布式编程
自动处理并行化、容错、数据分布和负载均衡
适用于大规模非实时数据处理

二、MapReduce架构

1. 主要组件

JobTracker：主节点，负责作业调度和资源管理
TaskTracker：从节点，执行具体的Map和Reduce任务
HDFS：分布式文件系统，存储输入输出数据

2. 执行流程

输入分片(Input Splits)
Map阶段
Shuffle阶段
Reduce阶段
输出

三、MapReduce工作原理

1. Map阶段

// 伪代码示例
map(String key, String value):
    // key: 文档名
    // value: 文档内容
    for each word w in value:
        EmitIntermediate(w, "1");

输入：键值对(key-value pairs)
处理：用户定义的map函数
输出：中间键值对

2. Shuffle阶段

将Map输出的中间结果按照key进行排序和分组
将相同key的数据发送到同一个Reducer

3. Reduce阶段

// 伪代码示例
reduce(String key, Iterator values):
    // key: 一个单词
    // values: 计数列表
    int result = 0;
    for each v in values:
        result += ParseInt(v);
    Emit(AsString(result));

输入：经过Shuffle后的键值对
处理：用户定义的reduce函数
输出：最终结果

四、MapReduce优化技术

1. 组合器(Combiner)

本地Reduce操作，减少网络传输
在Map端先对数据进行局部聚合

2. 分区器(Partitioner)

控制中间键值对如何分配到Reducer
默认使用哈希分区(hash partitioning)

3. 数据压缩

减少磁盘I/O和网络传输
常用压缩算法：Gzip, Bzip2, Snappy, LZO

4. 推测执行(Speculative Execution)

解决"拖后腿"问题
对运行较慢的任务启动备份任务

五、MapReduce应用场景

日志分析：Web服务器日志处理
文档处理：倒排索引构建
数据挖掘：关联规则挖掘
机器学习：朴素贝叶斯分类器训练
ETL处理：数据抽取转换加载

六、MapReduce优缺点

优点：

编程模型简单
自动处理并行化和容错
线性可扩展性
适合批处理

缺点：

不适合迭代计算
实时处理能力弱
中间结果需落盘，I/O开销大
不适合图计算等复杂算法

七、MapReduce与其他技术的比较

特性	MapReduce	Spark	Flink
处理模式	批处理	批/流处理	批/流处理
内存使用	磁盘为主	内存为主	内存为主
延迟	高	中-低	低
迭代计算支持	弱	强	强
API丰富度	简单	丰富	丰富