谁能讲清楚Spark之与MapReduce的对比

数据咩

已于 2023-08-13 20:16:44 修改

阅读量836

点赞数

分类专栏： Spark 文章标签： spark mapreduce 大数据

于 2023-08-13 10:59:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36418242/article/details/132257503

版权

Spark 专栏收录该内容

6 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了Spark如何超越MapReduce成为主流大数据处理框架。主要优势包括：通过RDD提供通用性和灵活性，简化开发过程，增强易用性，利用内存计算提升速度，并具备更好的容错性。不足之处在于中间数据不可修改，操作粒度较粗，以及运行时可能遇到的调优挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们已经知道Spark是如何设计和实现数据处理流程的，这里我们再深入思考一下，为什么Spark能够替代MapReduce成为主流的大数据处理框架呢？对比MapReduce，Spark究竟有哪些优势？

一优势

1 通用性：

基于函数式编程思想，MapReduce将数据类型抽象为，k,v格式，并将数据处理操作抽象为map（）和 reduce（）两个算子，这两个算子可以表达一大部分数据处理任务。因此，MapReduce为这两个算子设计了固定的处理流程map—Shuffle—reduce。
但到数据处理流程其实多种多样，map—Shuffle—reduce模式只适用于表达类似foldByKey（）、 reduceByKey（）、aggregateByKey（）的处理流程，而像cogroup（）、join（）、cartesian（）、coalesce（）的流程需要更灵活的表达方式。

Spark在两方面进行了优化改进：

1）将输入/输出、中间数据抽象表达为一个数据结构RDD，相当于在Java中定义了class，然后可以根据不同类型的中间数据，生成不同的RD

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。