Spark学习脑图

最新推荐文章于 2020-05-12 00:12:48 发布

??yy

最新推荐文章于 2020-05-12 00:12:48 发布

阅读量275

点赞数

CC 4.0 BY-SA版权

文章标签：大数据爬虫

原文链接：https://my.oschina.net/rathan/blog/603425

本文对比了Spark和Hadoop在速度、时延、迭代式数据处理能力及适用场景上的优劣势，深入分析了两者在内存使用、编程模型、转换操作等方面的差异，并详细阐述了Spark的适用场景与不适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark对比hadoop的优势

	hadoop	spark
速度	中间结果存放在hdfs上	中间数据存在内存里，内存放不下会存在本地，不会存在hdfs上
	reduceTask需要等mapTask全部结束后才执行	相同分区的转换构成流水线，放在同一个task中运行。分区不同的转换中间需要shuffle，放在不同的stage中，需要等前面的stage完成
	时延高，只适合batch操作。对于交互式数据操作和实时处理支持不足。	时延低，可以处理micro batch操作
	对迭代式数据处理性能比较差	在内存中缓存数据，提高迭代式计算的性能
编程模型	抽象层次低，需要手工编写代码来完成计算，使用上难易上手	基于RDD的抽象，使数据逻辑处理的代码非常简短。
	只提供两个操作：Map和Reduce，欠缺表达力。	提供很多转换和动作，很多基本操作，如join、groupBy等。
	一个job只有map和reduce两个阶段，复杂的计算需要大量job来完成，job之间的依赖关系是由开发者自己管理的。	一个job可以包含多个RDD转换操作，在调度时可以生成多个stage。如果多个map操作的RDD分区不变，可以放在同一个task中运行。
	处理逻辑隐藏在代码细节中，没有整体逻辑。	在Scala中，通过匿名函数和高阶函数，RDD的转换操作支持流式API，可以提供处理逻辑的整体视图，代码不包含具体的操作实现细节，逻辑更清晰。