Spark简介

最新推荐文章于 2025-01-05 18:24:52 发布

原创最新推荐文章于 2025-01-05 18:24:52 发布 · 210 阅读

CC 4.0 BY-SA版权

文章标签：

0 篇文章

订阅专栏

Spark作为一站式大数据处理引擎，提供快速、易用、通用的计算能力。基于内存的计算模型使其速度远超MapReduce，同时集成Hadoop实现数据存储与资源调度。Spark支持多种计算模式，包括离线批处理、交互式查询、流式计算、机器学习和图计算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

速度快：：基于内存进行的计算也有部分过程需要基于磁盘。
容易上手：是基于RDD的计算模型，比MapReduce更加易于理解，可以使用更加简单的操作完成比较复杂的运算
超强的通用性：Spark提供了Spark RDD、Spark SQL、Spark Streaming、Spark MLlib、Spark
GraphX等技术组件，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务
集成Hadoop:与hadoop高度集成，可以完美的配合使用。

Spark Streaming 与 Storm 的比较

首先是spark对于MapReduce可以立即替换且效果较好的，就是要求低延时，复杂大数据交互式计算系统。
- 比如某些大数据系统，可以根据用户提交的各种条件，立即定制执行复杂的大数据计算系统，并且要求低延时（一小时以内）即可以出来结果，并通过前端页面展示效果。在这种场景下，对速度比较敏感的情况下，非常适合立即使用Spark替代MapReduce。因为Spark编写的离线批处理程序，如果进行了合适的性能调优之后，速度可能是MapReduce程序的十几倍。从而达到用户期望的效果
其次是相对于hive来说，Ø对于某些需要根据用户选择的条件，动态拼接SQL语句，进行某类特定查询统计任务的系统，其实类似于上述的系统。此时也要求低延时，甚至希望达到几分钟之内。此时也可以使用SparkSQL替代Hive查询引擎。此时使用Hive查询引擎可能需要几十分钟执行一个复杂SQL，而使用Spark SQl，可能只需要使用几分钟就可以达到用户期望的效果
最后，对于Storm来说，如果仅仅要求对数据进行简单的流式计算处理，那么选择storm或者spark streaming都无可厚非。但是如果需要对流式计算的中间结果（RDD），进行复杂的后续处理，则使用Spark更好，因为Spark本身提供了很多功能，比如map、reduce、groupByKey、filter等等。