相同点:
Hadoop和spark都是大数据计算框架。
不同点:
1.编程方式
Hadoop:使用MapReduce计算数据时,计算过程必须转化为Map和Reduce两个过程
spark:不止以上两种操作,还提供多种数据集的操作类型
2.数据存储
Hadoop:计算产生的中间结果,存储在本地磁盘中
spark:存储在内存中
3.数据处理
Hadoop:执行数据处理时,都需要从磁盘中加载数据,磁盘IO开销较大
spark:执行数据处理时,将数据加载到内存中,直接在内存中进行计算。
4数据容错
Hadoop:中间结果数据,保存在磁盘中,在Hadoop框架底层实现了备份
spark:基于Lineage的容错机制和设置检查点。弥补数据在内存处理时断电数据丢失问题