Spark的误解-不仅spark是内存计算，hadoop也是内存计算

最新推荐文章于 2020-12-29 21:39:55 发布

转载最新推荐文章于 2020-12-29 21:39:55 发布 · 477 阅读

Hadoop 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了Spark和Hadoop在内存计算方面的差异，指出两者均可进行内存计算，但Spark通过基于内存的迭代式计算提高了效率。Spark在机器学习等需要大量迭代计算的场景下表现出色，其快速的任务启动、更高效的shuffle处理和DAG支持使其相较于Hadoop在某些情况下可快达100倍。然而，在实际生产环境中，这一差距通常缩小至2.5x至3x。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 不仅spark是内存计算，hadoop也是内存计算：

市面上有一些初学者的误解，他们拿spark和hadoop比较时就会说，Spark是内存计算，内存计算是spark的特性。请问在计算机领域，mysql,redis,ssh框架等等他们不是内存计算吗?依据冯诺依曼体系结构，有什么技术的程序不是在内存中运行，需要数据从硬盘中拉取，然后供cpu进行执行？所有说sprk的特点是内存计算相当于什么都没有说。那么spark的真正特点是什么?抛开spark的执行模型的方式，它的特点无非就是多个任务之间数据通信不需要借助硬盘而是通过内存，基于内存的迭代式计算，大大提高了程序的执行效率。而hadoop由于本身的模型特点，多个任务之间数据通信是必须借助硬盘落地的。那么spark的特点就是数据交互不会走硬盘。只能说多个任务的数据交互不走硬盘，但是sprk的shuffle过程和hadoop一样仍然必须走硬盘的。

MapReduce在每次执行时都要从磁盘读取数据，计算完毕后都要把数据存放到磁盘上。
比如：机器学习的时候，会不断的迭代数据，这样的话，会消耗大量的IO
这里写图片描述
而Spark是基于内存的。

2. Spark要比Hadoop快 10x-100x

使用 Spark 和 Hadoop 运行逻辑回归（Logistic Regression）机器学习算法的运行时间比较，从上图可以看出Spark的运行速度明显比Hadoop快上百倍！但是实际上是这样的吗？大多数机器学习算法的核心部分是什么？其实就是对同一份数据集进行相同的迭代计算，而这个地方正是Spark的LRU算法所骄傲的地方。当你多次扫描相同的数据集时，你只需要在首次访问时加载它到内存，后面的访问直接从内存中获取即可。这个功能非常的棒！但是很遗憾的是，官方在使用Hadoop运行逻辑回归的时候很大可能没有使用到HDFS的缓存功能，而是采用极端的情况。如果在Hadoop中运行逻辑回归的时候采用到HDFS缓存功能，其表现很可能只会比Spark差3x-4x，而不是上图所展示的一样。

根据经验，企业所做出的基准测试报告一般都是不可信的！一般独立的第三方基准测试报告是比较可信的，比如：TPC-H。他们的基准测试报告一般会覆盖绝大部分场景，以便真实地展示结果。

一般来说，Spark比MapReduce运行速度快的原因主要有以下几点：

task启动时间比较快，Spark是fork出线程；而MR是启动一个新的进程；
更快的shuffles，Spark只有在shuffle的时候才会将数据放在磁盘，而MR却不是。
更快的工作流：典型的MR工作流是由很多MR作业组成的，他们之间的数据交互需要把数据持久化到磁盘才可以；而Spark支持DAG以及pipelining，在没有遇到shuffle完全可以不把数据缓存到磁盘。
缓存：虽然目前HDFS也支持缓存，但是一般来说，Spark的缓存功能更加高效，特别是在SparkSQL中，我们可以将数据以列式的形式储存在内存中。

　　所有的这些原因才使得Spark相比Hadoop拥有更好的性能表现；在比较短的作业确实能快上100倍，但是在真实的生产环境下，一般只会快 2.5x ~ 3x！