spark部分：spark的四种运行模式，Spark 比 MapReduce 快的原因，spark执行程序流程，spark算子种类，spark持久化算子，cache 和 persist，调节参数的方式

最新推荐文章于 2025-03-07 23:59:48 发布

道法—自然

最新推荐文章于 2025-03-07 23:59:48 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据开发面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wyqwilliam/article/details/82012028

本文详细介绍了Spark的四种运行模式：local、standalone、yarn和mesos。对比了Spark与MapReduce的性能差异，指出Spark的内存迭代、DAG计算模型以及粗粒度资源调度是其速度更快的主要原因。同时，文章还阐述了Spark执行程序的流程、算子种类、持久化策略如cache和persist，以及shuffle调优的相关参数配置方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark 有 4 中运行模式：

1. local 模式，适用于测试

2. standalone，并非是单节点，而是使用 spark 自带的资源调度框架

3. yarn，最流行的方式，使用 yarn 集群调度资源

4. mesos，国外使用的多

Spark 比 MapReduce 快的原因

1. Spark 基于内存迭代，而 MapReduce 基于磁盘迭代

MapReduce 的设计：中间结果保存到文件，可以提高可靠性，减少内存占用，但是牺牲了性能。

Spark 的设计：数据在内存中进行交换，要快一些，但是内存这个东西，可靠性比不过 MapReduce。

2. DAG 计算模型在迭代计算上还是比 MR 的更有效率。在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG）

DAG 计算模型在 Spark 任务调度中详解！ Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型。

一般而言，DAG 相比 MapReduce 在大多数情况下可以减少 shuffle 次数。Spark 的 DAGScheduler 相当于一个改进版的 MapReduce，如果计算不涉及与其他节点进行数据交换，Spark 可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘 IO 的操作。但是，如果计算过程中涉及数据交换，Spark 也是会把 shuffle 的数据写磁盘的！

有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。