Spark - 延时计算

最新推荐文章于 2024-12-16 19:41:29 发布

翻译最新推荐文章于 2024-12-16 19:41:29 发布 · 659 阅读

·

1

·

CC 4.0 BY-SA版权

原文链接：https://data-flair.training/blogs/apache-spark-lazy-evaluation/

文章标签：

#spark #apache spark

bigdata 专栏收录该内容

60 篇文章

订阅专栏

延时计算

1. 目的
在Spark中延时计算是什么
3. 在Spark中延时计算在转换中的优势
结论

1. 目的

在spark延时计算教程中,我们将要知道在spark中什么是延时计算.spark怎样管理Spark RDD数据转换的延时计算. 原因背后Spark延时计算和Spark延时计算的优点什么在Spark转换操.

在Spark中延时计算是什么

在开始Spark延时计算之前,让我们复习Spark概念.
正如名称自身表明了他自己的定义,在Spark中延时计算意味执行将不会开始,直到有行动被触发.在Spark中,只有当spark转换发生延时计算才发生.

转换延时本质上意味着当我们调用一些RDD的操作,它不是直接执行.Spark维护操作记录,被称为DAG.我们认为Spark RDD相当于数据,我们构建它通过转换.因为转换本质上是延时的,所以我们执行操作任何时间通过调用数据上的行为.因此,在数据上的延时计算没有加载,直到它是必需执行.
请添加图片描述
在MapReduce中,开发者很多时间浪费在极小MapReduce阶段,它发生通过募集操作在一起.然而在Spark我们没有创建单个指定图,而是我们募集很多简单操作.因此它创建Hadoop MapRedce 和Spark的不同.

在Spark中 driver程序加载代码到集群.当代码执行,每个代码在操作之后执行时,任务将被消耗时间和内存消费.因此每次数据都要进入集群进行评估.

3. 在Spark中延时计算在转换中的优势

在Spark中延时计算有一些优点.

a. 增加可管性

通过延时计算,用户可以组织他们的Spark程序到更小的操作.通过重组操作在数据上它减少大量阶段.

b. 保存计算并且提升速度

Spark延时计算扮演一个关键角色在避免计算过载.因为只有必要的值可以计算.它节约了driver和集群之间数据流,因此提升了处理.

c. 减少复杂度

任何操作的两个主要复杂性是时间和空间两个维度.使用Spark延时计算我们解决了这两个.因为我们不执行每一个操作,因此时间省了下来.它让我们运行在一个无限的数据结构.操作被处理仅仅当数据需要时,它减少了负载.

优化

提供优化通过减少大量查询.
了解更多查看Spark优化.

结论

因此,延时计算提高了Spark的能力,通过减少RDD操作执行的时间.它维护血缘图来计算RDD上的操作.结果,它的性能优化,并且获得了容错性.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。