大数据框架Spark与Hadoop MR的区别

最新推荐文章于 2024-02-01 10:43:55 发布

大数据Arry

最新推荐文章于 2024-02-01 10:43:55 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：程序员数据大数据编程

本文链接：https://blog.youkuaiyun.com/arry001/article/details/89401648

Spark作为类Hadoop MapReduce的并行计算框架，以其内存计算优势在迭代运算和数据挖掘中表现出高效率。它提供丰富操作类型，如Transformations和Actions，编程模型更为灵活，适合ML和DM运算。Spark支持多种运行模式，如Standalone和YARN，并通过Shark与Hive兼容。尽管Spark不适用于异步细粒度更新的应用，但其广泛适用性使其成为大数据处理的优选。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是Spark？Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果

什么是spark？Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示：

Spark与Hadoop的对比

Spark的中间数据放到内存中，对于迭代运算效率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count,