1、基于内存计算
Hadoop
)shuffle
70%决定了效率 map->reduce 每次计算结果放到磁盘上(容错,容灾),io网络开销都比较大
Spark
当然对内存要求比较大
2、DAG 有向无环图
对数据的操作首先记录下来,暂时不执行(transform阶段),具体要结果的时候(reduceByKey)才会执行
3、任务调度机制( Scheduler)
一个虚拟机可以开多个任务
Spark不同任务间可以共享数据(内存级别)
Hadoop中不同任务共享数据--磁盘
4、容错机制(Lineage)
Hadoop中一个节点出错要重新运行
本文深入探讨了大数据处理领域的两种关键框架:Spark和Hadoop,着重对比了它们在内存计算、DAG操作、任务调度机制及容错机制方面的特性,揭示了Spark如何通过内存计算和任务间数据共享提高效率,以及Hadoop在容错和容灾方面的能力。
3617

被折叠的 条评论
为什么被折叠?



