spark中生成stage的过程中，是如何得知某个rdd的缓存情况。

最新推荐文章于 2024-10-11 21:15:53 发布

孤影渐苍茫

最新推荐文章于 2024-10-11 21:15:53 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark 缓存

本文链接：https://blog.youkuaiyun.com/u013106951/article/details/52238820

spark 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了Spark2.0中RDD缓存机制的实现原理，特别是DAGScheduler内部如何通过cacheLocs变量记录和管理RDD分区的缓存位置信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经过查看源代码spark2.0得知，在DagScheduler中，存在一个名为cacheLocs的变量，存储了每个RDD分区的缓存位置，定义如下：

  //org.apache.spark.scheduler.DAGScheduler

  /**
   * Contains the locations that each RDD's partitions are cached on.  This map's keys are RDD ids
   * and its values are arrays indexed by partition numbers. Each array value is the set of
   * locations where that RDD partition is cached.
   *
   * All accesses to this map should be guarded by synchronizing on it (see SPARK-4454).
   */
  private val cacheLocs = new HashMap[Int, IndexedSeq[Seq[TaskLocation]]]

得知rdd缓存情况的主要流程如下：

//org.apache.spark.scheduler.DAGScheduler

1)handleJobSubmitted
2)submitStage
3)getMissingParentStages
4)getCacheLocs

通过调用getCacheLocs()，访问cacheLocs变量得知rdd缓存情况。

在生成stage过程中，一旦回溯到某个rdd，并得知此rdd已经缓存，则停止回溯。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孤影渐苍茫

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark如何检查DataFrame/RDD是否已缓存

hwj_wayne的博客

01-22

1165

【方法1：在spark UI中查看】在spark脚本运行后，打开spark UI的Storage界面，便能看到当前已缓存的所有rdd 【方法2：利用tempView和catalog】先把数据注册为临时表，然后可以通过catalog来检查临时表是否已缓存 package high_quality._history import org.apache.log4j.{Level, L...

Spark学习（三）SparkRDD及Stage的划分

potter

04-22

3952

1、RDD的概述1.1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。1.2、RDD的...

参与评论您还未登录，请先登录后发表或查看评论

spark dataset groupby 之后是否自动缓存

u013314600的博客

12-20

370

spark2.1.0中使用spark dataset做一些操作 //data中c根据ol1 字段做分组 val data = sparkSession.csv(true,",","file:///Users/zhujiye/Downloads/work2.csv") //groupbyData 类型为 RelationalGroupedDataset val groupbyData = da...

Spark的Web界面

qq_41081716的博客

09-04

1623

已提交的作业不同阶段RDDs（弹性分布式数据集）Apache Spark UI中的"Executors"页面，该页面提供了关于Spark应用程序中执行器的详细信息。执行器是Spark应用程序中负责执行任务的进程。

Spark源码学习1.1——DAGScheduler.scala

weixin_30613343的博客

12-01

161

本文以Spark1.1.0版本为基础。经过前一段时间的学习，基本上能够对Spark的工作流程有一个了解，但是具体的细节还是需要阅读源码，而且后续的科研过程中也肯定要修改源码的，所以最近开始Spark的源码的学习。首先以重要文件为基础分别分析，然后再整体的分析。（一）DAGScheduler.scala文件的主要功能 DAGScheduler是划分Job为st...

【Spark系列1】DAG中Stage和Task的划分全流程

qq_33592535的博客

01-28

2808

上面已经介绍，在一个Stage中，RDD的依赖关系是窄依赖，所以最后一个RDD的分区数量取决于其依赖的RDD的分区数量，一直依赖到该阶段的开始的RDD的分区。

什么是Spark RDD？(RDD的介绍与创建)

weixin_74292291的博客

06-05

1265

什么是Spark RDD？RDD的介绍与创建

RDD优化：缓存和checkpoint机制、数据共享（广播变量、累加器）、RDD的依赖关系、shuffle过程、并行度说明

m0_70882914的博客

10-11

1674

RDD优化：缓存和checkpoint机制、数据共享（广播变量、累加器）、RDD的依赖关系、shuffle过程、并行度说明

Spark二级调度系统Stage划分算法和最佳任务调度细节剖析-Spark商业环境实战

weixin_33725722的博客

10-30

262

本套系列博客从真实商业环境抽取案例进行总结和分享，并给出Spark源码解读及商业实战指导，请持续关注本套博客。版权声明：本套Spark源码解读及商业实战归作者（秦凯新）所有，禁止转载，欢迎学习。 Spark商业环境实战及调优进阶系列 Spark商业环境实战-Spark内置框架rpc通讯机制及RpcEnv基础设施 Spark商业环境实战-Spark事件监听总线流程分析 Spark商业环境实战-S...

Spark性能优化研究--cache的用法

fengkuang的一亩三分地

07-23

2637

Spark性能优化研究–cache的用法背景最近在用spark训练模型，数据量达到了50亿量级，遇到了很多性能问题，特此进行了试验总结。我们使用cache或者persist内存持久化的目的，是为了在以后的数据计算中减少数据读取的时间，当要处理的数据量过大时，比如50亿级，常常会遇到内存不够，或者cache所需时间过长的问题。cache会破坏spark在做DAG优化执行计划的时候的数据本...

Spark入门必知:DAG、Cache、RDD、CheckPoint

AriesLY0411的博客

03-03

2615

目录前言关键字 DAG（有向无环图）概念 DAG 解决了什么问题工作流程 Cache 缓存为什么要用cache cache的使用注意点 cache存储级别如何选择存储级别 checkPoint（检查点） cache和checkpoint的区别 RDD（弹性数据集）宽窄依赖 1.窄依赖（1对1 | N对1） 2.宽依赖（一对多）分区优化 Stage （阶段）概念划分规则 Spark案例前言这里只向大家介绍几个关键的关键字知识点，详

DAGScheduler详解

qq_27639777的博客

04-15

4640

文章目录概述基本概念主要功能DAGScheduler类说明Job的提交stage的划分与提交stage的划分创建ResultStage获取或创建父Stage列表获取RDD的所有shuffle依赖列表获取或创建ShuffleMapStage列表获取缺失的祖先Shuffle依赖列表stage的提交提交ResultStage获取stage所有未提交的父Stage列表提交未计算的Task集合将Stage标...

Spark:DAGScheduler原理剖析与源码分析

标题

12-27

734

Job触发流程原理与源码解析 wordcount案例解析，来分析Spark Job的触发流程代码：var linesRDD= sc.textFile('hdfs://') SparkContext中textFile方法 /** * hadoopFile方法调用会创建一个HadoopRDD，其中的元素pair是（key,value） * key是hdfs或者文本文件的每一行的of...

Spark storage系列------3.Spark cache数据块之后对后继Job任务调度的影响，以及后继Job Task执行的影响

u012684933的专栏

10-22

2050

DAGScheduler.submitStage建立Spark应用的物理执行图，DAGScheduler.submitStage通过调用DAGSchdeuler.getMissingParentStages找到一个Stage的祖宗Stage并把祖宗Stage加入到物理执行图中。在这里如果发现依赖的RDD的全部分区已经存储到了BlockManager，也就是已经成功Cache，那么这个RDD以及它的

Stage划分和Task最佳位置

fighting

04-06

1445

1、Job Stage划分 Spark Application中因为不同的Action触发众多的Job，也就是说一个Application中可以有很多的Job，每个Job是由是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。而Stage划分的依据就是宽依赖。下面以RDD的collect方法为例：（1...

第34课：Stage划分和Task最佳位置算法源码彻底解密

u012016268的专栏

02-27

639

一：Stage 划分算法解密 1.spark Application 中可以因为不同的action触发众多的JOB，也就是说一个Application可以产生很多job，每个job是由一个或者多个stage构成的，后面的的stage依赖前面的Stage，也就是说只有只有前面依赖的Stage计算完成，后面的Stage才会运行 2.Stage 划分的时候会产生宽依赖，什么算子会产生宽

spark源码学习（五）:stage的划分和task的创建

HAHA的专栏

02-26

1125

spark源码学习:sparkContext的初始化分析（五）上一篇blog简单的阐述了和Resultstage和ActiveJob创建相关的源码，在这里我们接着上次没说完的submitStage，getMissingParentStages,submitMissingTasks两个函数开始.后面的这两个函数是在第一个函数里面调用的。 submitStage

十、DAGScheduler内幕

一朵的专栏

02-01

314

一 runJob 上节介绍到调用DAGScheduler的runJob，DAGScheduler runJob调用submitJob提交job。 /** * Run an action job on the given RDD and pass all the results to the resultHandler function as * they arrive. ...

spark中RDD