hadoop和spark的区别

本文对比了Spark与Hadoop的性能差异,指出Spark基于内存计算的特点使其比Hadoop快100倍,并且即便是在磁盘计算的情况下也比Hadoop快10倍。此外,Spark还采用了更高效的作业调度策略。

hadoop是基于磁盘的,它的运算结果保存在磁盘当中;而spark的运算是基于内存的。因此spark的运算速度是

hadoop的100倍;即使在磁盘当中运算,spark也是hadoop的10倍左右,原因就是spark具有优秀的作业调度策略。

故spark的速度快与hadoop的两个原因:

(1)spark是基于内存,hadoop基于磁盘:

 

在hadoop中HDFS用于数据的存储,MapReduce用于计算。
 
MapReduce:从磁盘中读取文件->把迭代结果存储到磁盘中->再从磁盘中读取文件->..................
 
Spark:从磁盘中读取文件->把迭代后的结果存储到内存当中->再从内存中读取数据->..................
 
Spark的计算速度是hadoop的100倍,即使再磁盘中操作数据也是hadoop的10倍。
 

(2)spark具有优秀的作业调度策略(使用了有向无环图,关于这部分会在RDD学习模块中介绍)。

转载于:https://www.cnblogs.com/yuming226/p/8117553.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值