Tez、Spark、MR三大计算框架对比

最新推荐文章于 2025-09-14 15:31:00 发布

原创最新推荐文章于 2025-09-14 15:31:00 发布 · 347 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #mr #大数据

大数据同时被 2 个专栏收录

277 篇文章

订阅专栏

52 篇文章

订阅专栏

Tez、Spark 和 MapReduce (MR) 的区别

1. MapReduce (MR)

基础架构：Hadoop 的原生批处理框架
执行模型：严格的两阶段模型（Map 和 Reduce）
特点：
- 高容错性但性能较低
- 每个阶段都需要将中间结果写入磁盘
- 编程模型相对简单但不够灵活
- 适合简单的批处理任务

2. Apache Tez

定位：MapReduce 的优化替代品
执行模型：有向无环图(DAG)模型
特点：
- 消除了不必要的中间写入
- 允许更复杂的任务拓扑结构
- 常用于Hive、Pig等上层工具
- 比MR更高效但仍属于Hadoop生态系统

3. Apache Spark

定位：通用的分布式计算框架
执行模型：基于内存的DAG执行引擎
特点：
- 内存计算显著提高性能
- 支持批处理、流处理、机器学习和图计算
- 丰富的API（Scala、Java、Python、R）
- 独立于Hadoop生态系统但可以集成

主要区别对比

特性	MapReduce	Tez	Spark
执行模型	两阶段固定模型	DAG模型	DAG模型(内存)
性能	慢	中等	快
内存使用	低	中等	高
编程复杂度	高	中等(通常通过上层工具)	低(丰富API)
适用场景	简单批处理	Hadoop生态批处理	多样化工作负载
容错机制	磁盘检查点	磁盘检查点	RDD lineage

Spark通常在现代大数据架构中更受欢迎，因为它提供了更好的性能和更广泛的功能集，而Tez主要用于优化Hadoop生态系统中的现有工作负载。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。