对于Hadoop和Spark的一些浅显认识

最新推荐文章于 2025-04-28 22:47:27 发布

predict_wise

最新推荐文章于 2025-04-28 22:47:27 发布

阅读量862

点赞数

CC 4.0 BY-SA版权

文章标签： hadoop spark 关系认识

本文链接：https://blog.youkuaiyun.com/predict_wise/article/details/50967247

本文探讨了Spark和Hadoop的关系，指出Spark作为内存计算框架，与Hadoop的MapReduce相比，效率更高。Hadoop包括HDFS和YARN，提供存储和资源调度，而Spark则可以在Hadoop之上运行，支持多种资源调度系统。Spark的核心是RDD，提供转换和动作操作，并通过DAG实现计算。Spark涵盖了SQL、流计算、机器学习和图计算等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark和Hadoop的关系

Spark是一种内存计算框架（包含迭代式计算、DAG【有向无环图】计算、流式【streaming】计算，图【GraphX】计算等），与Hadoop的MapReduce是竞争关系，但效率比MapReduce高很多。Hadoop的MapReduce和Spark是一种并行的概念，两者都是计算框架。Spark通过lineage（血缘）这一核心思想实现了基于内存的轻量容错机制，取代了MapReduce的硬盘数据冗余。
Hadoop他就像是一个操作系统：
（1）存储有HDFS，相当于Linux下的ext3，ext4存储文件系统
（2）资源调度有YARN，相当于Linux下的进程调度和内存分配模块
（3）计算引擎有内置的MapReduce（他是运行与YARN之上的）。而Spark的运行需要外部的资源调度系统来支持，他也支持多种资源调度系统（都是分布式部署的），主要有：Standalone Deploy mode、Amazon EC2、Apache Mesos、Hadoop YARN
Spark可以运行于Hadoop之上（用Hadoop的HDFS作为存储文件系统，用Hadoop的YARN作为资源调度系统），但是Spark也可以完全脱离Hadoop，比如用red hat的Gluster FS作为存储文件系统，用Apache Mesos作为资源调度系统。也就是说，Spark并不完全是属于Hadoop生态圈的。
但从目前来看，Spark主要还是依哥Hadoop的应用，还是跑在Hadoop之上。
Spark能够应用于Spark SQL（SQL接口）、Spark Streaming（流计算）、MLlib（机器学习）、GraphX（图计算）领域