四个分布式计算框架MapReduce/Tez/Spark/Storm异同

本文深入解析了MapReduce、Spark、Tez和Storm四种计算框架的特点与应用场景。MapReduce适用于数据密集型离线计算,Spark作为内存计算框架提升了迭代与交互式应用的效率,Tez在YARN上支持DAG作业,优化了MapReduce的数据处理流程,而Storm则擅长实时流式计算,提供了优秀的实时分析能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NOSQL数据仓库之MapReduceSparkStormTez四个框架的异同

 

离线计算框架,MapReduce

是一种将一个算法抽象成Map和Reduce两个阶段进行

处理,非常适合数据密集型计算。

内存计算框架,Spark:MapReduce

计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。

Tez

运行在YARN之上支持DAG作业的计算框架,对MapReduce数据处理的归纳。它把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,也可以减少任务的运行时间。

流式计算框架 Storm

MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值