Spark VS MapReduce 浅谈

最新推荐文章于 2025-06-26 20:22:06 发布

原创最新推荐文章于 2025-06-26 20:22:06 发布 · 437 阅读

0 ·

CC 4.0 BY-SA版权

本文对比了Spark和MapReduce(MR)在计算速度、Shuffle方式、计算模型、资源调度等方面的差异。通过DAG计算模型，Spark在编程简便性、业务任务组合、Shuffle次数、资源调度等方面展现出优势。

计算速度

计算的速度是取决于计算机本身的计算能力的。
并且目前来看，所有的计算机计算都是基于内存的（如果有不是的，请原谅我的孤陋寡闻...），
也就是说 MR 和 Spark 是没有区别的。

Shuffle

我们都知道，不管是Spark 还是 MR，
其理论依据都是一篇名为 MapReduce 的论文
那么对于 Map 和 Reduce 两个阶段，其都是会产生 Shuffle 的，
而Shuffle会使得数据落地到磁盘，
相比于内存计算，磁盘的读写一般是要慢很多的，
当然不要抬杠说一些非常复杂的计算逻辑噢~~~
所以 Shuffle 也是影响速度的一个重要因素

Shuffle 方式或者说算法，其实二者差别也不大，
因为理论依据一样，所以理论上，
二者在这一块基本不会拉开差距，

计算模型

上面说了看似废话的两点，
但是还是得要说明，防止一些先入为主的错误观念。
那就是Spark的计算模型 DAG，
下面我们以Spark的视角来看DAG的优势。

编程更简单方便

因为DAG的存在，
是的 Spark 编程比MR方便快捷，
也更加的简单了，
在我看来这也是从MR转Spark的一个非常重要的一点，
谁也不会否认，用了Spark，真的不想再去编程MR了。

具体更好的控制力

因为DAG的存在，
使得我们可以把各种业务任意组合，
好处是显而易见的：

业务上的任务更加清晰了，
维护成本更低了，
而 MR 则是一个一个的Job，完全是分开的，
要维护一个正常的业务开发，
那是真的不那么简单，
而对于Spark而言，
因为任务都是在一个 Application 里面，
所以在计算方面，资源分配方面，
都有了更大的可操作空间，
比如说：Cache 算子的出现，
如果没有DAG，你根本无法使用类似这样的算子。

而MR要做类似Cache之类的优化是非常困难的，
当然，这里可以说，虽然难，
如果你是大佬，你也是可以进行优化的，
优化的效果，理论上也是可以让二者在运行速度上没差，
但是我估计，没人会愿意去做这种吃力吃力才讨好的事情吧。
Shuffle的次数会更少，
还是是因为任务都是在一个 Application 里面，
Spark很容易可以根据任务流来进行Shuffle的规划，
而MR则完全依赖于用户，
这就导致MR的不可控，
虽然如果你是一个优秀的开发者，
噢~不是，应该是大神的开发者，
你也可以优化的没有一丝差异。