spark程序中cache的作用 + 实验

最新推荐文章于 2025-05-14 09:05:11 发布

原创最新推荐文章于 2025-05-14 09:05:11 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#spark #java #cache #rdd

工作日常专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了Spark中Cache的功能和作用，通过实验对比了使用Cache前后对资源消耗的影响，强调了在多个计算步骤中重复使用同一RDD时使用Cache的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark中cache的作用:

图例:

在这里插入图片描述
其中, result1和result2用到了同一个rdd(rdd2)做操作

如果rdd2不加cache:

由于spark程序为lazy操作, 所以在计算result1时, step1 -> step2 -> step3会全部走一遍, 计算result2时, step1 -> step2 -> step3也会全部走一遍, 其中step1 -> step2为重复步骤, 浪费了资源

如果rdd2加了cache:

计算result1时, step1 -> step2 -> step3会全部走一遍, 计算result2时, 直接从cache中取出rdd2, 只走了step3

实验:

demo代码1(rdd2不加cache):

在这里插入图片描述
其中rdd2没有加cache, 目录:C:/Users/Administrator/Desktop/hdfs/只加了两条日志, 所以结果应该是控制台输出了两组"test"(每组两个"test")

实验结果:

在这里插入图片描述

demo代码1(rdd2添加cache):

在这里插入图片描述
其中rdd2被cache, 所以结果应该是只输出了一组"test"(一组两个"test").

实验结果:

在这里插入图片描述

结论:

如果两个以上的计算步骤要使用同一个rdd, 建议使用cache

关键字:

spark离线计算, cache

个人说明:
阿幕, 一个喜欢听电音/trap/rnb, 喜欢看动漫, 喜欢玩我的世界的程序员

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿幕fig

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

循序渐进大数据组件之--Spark中cache和persist的区别

Alex的博客

12-29

658

1.首先解释一下这两个方法的作用：为spark做持久化，cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间 Spark 中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时，每个节点的其它分区都可以使用 RDD 在内存中进行计算，在该数据上的其他 action 操作将直接使用内存中的数据。这样会让以后的 action 操作计算速度加快（通常运行速度会加速 10 倍）。缓

spark编程基础python版实验报告_Spark2.1.0+入门：RDD编程(Python版)

weixin_39525865的博客

12-15

1196

通过前面几章的介绍，我们已经了解了Spark的运行架构和RDD设计与运行原理，并介绍了RDD操作的两种类型：转换操作和行动操作。同时，我们前面通过一个简单的WordCount实例，也大概介绍了RDD的几种简单操作。现在我们介绍更多关于RDD编程的内容。Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。RDD创建RDD可以通过两种方式创建：* 第一种：读取一个外部数据集。比...

参与评论您还未登录，请先登录后发表或查看评论

Spark 中 cache、persist 和 checkpoint 优化数据处理的三种重要机制介绍

z1941563559的博客

11-19

1537

是优化数据处理的三种重要机制。它们都旨在减少数据重算和优化性能，但有各自的应用场景和实现原理。下面从源码角度分析其原理、作用和适用场景。会将 RDD 的数据保存到可靠存储（如 HDFS），并将 RDD 的依赖链打断，从而减少 DAG 深度，增强容错能力。，默认将数据存储在内存中，如果内存不足，则溢写到磁盘。的增强版，允许用户选择存储级别（的简化版，其底层实现直接调用。在 Spark 中，

Spark_Spark 中Cache的作用以及具体的案例

迎难而上

06-13

6922

今天模拟实现 broadcastJoin 的时候突然意识到了这个点，对 Spark 的 Cache 做个总结。问题在Spark中有时候我们很多地方都会用到同一个RDD, 按照常规的做法的话,那么每个地方遇到Action操作的时候都会对同一个算子计算多次。这样会造成效率低下的问题 !!!! 常见 transform , action 算子 => https://blog.youkuaiyun.com/u010003835/article/details/10...

Spark core中的cache、persist区别，以及缓存级别详解

05-23

3967

概述本次我们将学习Spark core中的cache操作以及和 persist的区别。首先大家可能想到的是cache到底是什么呢？他有什么作用呢？我们可以带着这两个问题进行下面的学习。本文结构： 1. cache的产生背景 2. cache的作用 3. 源码解析cache于persist的区别，以及缓存级别详解 1 cache的产生背景我们先做一个简单的测试读取一个本地文件做一...

Spark的缓存Cache

qq_45578476的博客

11-28

224

使用原因 Spark RDD是惰性求值的，当对于RDD使用简单的调用操作时，Spark会每次都重算RDD及其依赖，增大损耗。为了减轻损耗避免RDD的重算且复用RDD的目的，就需要使用Spark的缓存Cache。在spark交互中：同样的处理数据比较缓存和不缓存的区别启动hdfs,zookeeper,spark 在Spark下的bin中启动spark-shell 交互指令快速生成：在bin目录...

Spark中的cache和persist

Mr.Phoebe的专栏

02-08

5876

Spark中cache和persist的作用以及存储级别前言 Spark开发高性能的大数据计算作业并不是那么简单。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark，就必须对其进行合理的性能优化。有一些代码开发基本的原则，避免创建重复的RDD，尽可能复用同一个RDD，如下...

Zookeeper+Hadoop+Spark+Flink+Kafka+Hbase+Hive 完全分布式高可用集群搭建(保姆级超详细含图文) 附安装包网盘下载

最新发布

2403_85813624的博客

05-14

395

在 Apache Spark 中，缓存（Cache）是一种优化手段，用于将中间计算结果存储在内存（或磁盘）中，以便后续重复使用，从而避免重复计算，提高作业的执行效率。cache() 是 Spark 中最简单的缓存方法，它会将 RDD 数据存储到内存中，使用默认的存储级别（MEMORY_ONLY）。◦ MEMORY_AND_DISK_SER：将 RDD 以序列化的 Java 对象形式存储在内存中，如果内存不足，则存储到磁盘中。• 存储级别：默认将数据存储在内存中，以反序列化的 Java 对象形式存储。

Spark一些基础原理——Cache

dlke03的博客

07-24

546

lv0 cache是Spark程序设计中比较重要的一环，是对RDD的中间结算结果进行持久化，截断RDD的血统，这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时，其通过iterator进行计算，它会识别是否有缓存数据可以调用，如果没有则通过RDD继续计算；如果有则BlockManager从Local或者Remote获取数据，没获取到再检查checkpoint中的数据...

【Spark三十七】Spark Cache机制

bit1129的博客

02-01

626

今天状态很差，很困，无精打采。学到的Spark知识，没有连贯起来，很多知识点有印象但是很模糊，说不出个123来。本来今天要看看cache，checkpoint和broadcast，结果今天到现在为止已经是5点了，还没有任何的进展。开始硬着头皮把Spark的Cache机制搞一搞吧，发现，cache机制比想象中的难驾驭。调用reduceByKey对应的ShuffledRDD对应的...

spark cache操作

qq_33409840的博客

04-05

2252

spark的rdd对应的是一个弹性的分布式的数据集，对应的数据是只读的数据。在这种情况下，充分的使用缓存是能够很好的提高性能的。那么应该如何操作了？ spark会将代码对应的解析成为多个dag的有向无环图的操作的。下面是解析之后的一个简单的示意图的从图中可以看到，对应的是存在如下的问题的。每一个DAG对应的都是从数据源读取数据的，这样的操作本身来说是存在问题的。数据本身其实只是需要读取一次就可以了，后续的数据都是需要基于当前的数据来执行操作的，这个读取的数据是可以缓存的。 1.所以，可以在第一步读取数

Spark缓存--cache方法

2401_83374563的博客

05-08

1053

在Spark 中，cache()是用于优化计算性能的核心方法之一，但它有许多细节需要深入理解。以下是关于cache()cache()persist()cache()是的快捷方式，将数据以的形式存储在内存中。：调用cache()后，数据不会立即缓存，只有在首次触发（如count()show()collect()）时才会执行缓存。：默认使用，若内存不足，未缓存的分区会在后续需要时重新计算。：Spark 记录 RDD/DataFrame 的血缘关系（即生成该数据的操作步骤）。

Spark 性能优化（四）：Cache

Leven Data Sharing

02-15

1520

本文主要讲述了spark 性能调优时如何使用cache

通过Spark Shell测试Spark集群以cache机制

WEL测试

09-15

1370

第一部分通过Spark的shell测试Spark的工作 Step_1：启动spark-shell 启动Spark集群，然后启动Spark Shell，进入到目录下：/usr/local/spark/spark-1.4.0-bin-hadoop1/sbin，执行名spark-shell，执行结果如下： Step_2:把Spark安装目录下的"README.md

spark的cache(),persist(),unpersist()方法及需要注意的细节

11-11

1万+

1 cache(), persist()和unpersist() 原文链接：Spark DataFrame Cache and Persist Explained spark中DataFrame或Dataset里的cache()方法默认存储等级为MEMORY_AND_DISK，这跟RDD.cache()的存储等级MEMORY_ONLY是不一样的。理由是重新计算内存中的表的代价是昂贵的。MEMORY_AND_DISK表示如果内存中缓存不下，就存在磁盘上。 spark的dataset类中的cache()方法内部

Spark内核原理实验程序结果

01-04

### Spark 内核原理 Spark 是一种分布式处理框架，旨在高效处理大规模数据集。其核心组件包括驱动器（Driver）、执行器（Executor），以及调度器（Scheduler）。驱动器负责协调整个应用程序的运行流程；执行器则是在集群节点上真正执行任务的部分；而调度器用于管理和分配资源。 #### 数据处理机制在 Spark 中，RDD（弹性分布式数据集）作为基本抽象单位存在。它具有不可变性和容错能力等特点。当操作 RDD 时，并不是立即执行这些转换动作，而是记录下一系列的操作指令形成依赖关系图，直到遇到行动操作才会触发真正的计算过程[^1]。对于内存管理方面，JVM 堆内内存大小决定了 `systemMaxMemory` 的上限值。为了防止内存溢出错误的发生，在配置参数时会考虑一定的安全裕度因子来预留一部分空间不被占用，以此减少由于估计偏差带来的风险[^2]。 #### 文件读取与传输优化早期版本中 Map 阶段产生的临时文件数量较多，这增加了 I/O 开销并影响效率。后来通过对分区索引技术的应用使得 map 输出可以更有效地组织起来供 reduce 输入使用，降低了磁盘访问频率的同时也提高了整体吞吐量。此外 driver 节点能够预先加载必要的 jar 包至本地缓存区以便快速分发给各个 executor 使用，进一步提升了响应速度和并发性能[^3]。 ### 实验程序设计及其分析考虑到上述特性，下面给出一段简单的 Python 程序用来展示如何利用 PySpark 来实现逻辑回归模型训练的过程： ```python from pyspark.sql import SparkSession import numpy as np def parsePoint(line): values = [float(x) for x in line.split(',')] return np.array(values[:-1]), int(values[-1]) if __name__ == "__main__": spark = SparkSession.builder.appName("LogisticRegression").getOrCreate() data = spark.read.text("/path/to/data").rdd.map(lambda r: r[0]) parsedData = data.map(parsePoint).cache() iterations = 100 D = 784 # Number of dimensions w = 2 * np.random.ranf(size=D) - 1 for i in range(iterations): gradient = parsedData.map( lambda point: (point[0] * ((1 / (1 + np.exp(-point[1]*(w.dot(point[0])))) - 1) * point[1])) ).sum() w -= gradient print(w) spark.stop() ``` 此代码片段实现了基于梯度下降法更新权重向量 \( \mathbf{w} \)，以最小化损失函数为目标来进行二元分类的任务。注意这里假设输入特征维度为固定常数D=784，并且已经准备好了一个文本形式的数据源路径 `/path/to/data` 。每次迭代都会重新评估当前解的好坏程度，并相应调整方向直至收敛为止。然而需要注意的是如果尝试直接修改全局变量 count，则可能会导致意外的结果因为该变量仅存在于 Driver 上下文中并不会同步回各 Executor 处。因此建议采用累加器(Accumulator)功能替代简单计数器模式下的共享状态维护方式[^4]。