Spark框架(一) —— 缓存与checkpoint

最新推荐文章于 2025-05-13 10:07:44 发布

爱睡觉的考拉yxl

最新推荐文章于 2025-05-13 10:07:44 发布

阅读量977

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据 Spark 文章标签： spark

本文链接：https://blog.youkuaiyun.com/weixin_40170142/article/details/124432446

本文探讨Spark中的核心概念RDD，介绍其短暂存在的特性及其可能导致的问题。为了解决这个问题，文章深入讲解了缓存和checkpoint两种持久化技术。缓存将RDD存储在内存或磁盘，保留血缘关系，而checkpoint则通过集中存储在HDFS上，消除血缘关系，提供安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天开始挖新坑，开始总结Spark, 同时变更一下标题样式, 使内容更加明显。j

Spark的核心在于RDD(弹性分布式数据集)，但RDD具有一个特性：

只在处理过程中存在，一旦处理完释放。

这个特性的目的在于：最大化利用资源，老旧的RDD没用了，就从内存中清理，给后续计算腾空间

但是存在如下场景：后续的RDD‘需要基于之前某个被清理的RDD进行继承，但RDD早就被清理了

为了避免上述情况：使用持久化技术来解决

持久化技术分为两类

缓存 : 将某个RDD放入内存或者磁盘中，以备后续使用

rdd1.cache() 
rdd1.persist(StorageLevel, MEMORY_ONLY) 
rdd1.persist(StorageLevel, DISK_ONLY)

由于采用分散存储的形式，不支持写入HDFS，所以缓存被认为是设计不安全的
缓存一定保留了 “ 被缓存RDD的’血缘‘关系 ”

checkpoint

也是一种持久化技术
被设计认为是安全的，具体通过

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

爱睡觉的考拉yxl

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark日志文件清洗及分析

小财迷嘻嘻的博客

11-26

626

1、数据清洗读入日志文件并转化为RDD[Row]类型按照Tab切割数据过滤掉字段数量少于8个的对数据进行清洗按照第一列和第二列对数据进行去重过滤掉状态码非200 过滤掉event_time为空的数据将url按照”&”以及”=”切割保存数据将数据写入mysql表中文件目录：D:\test\t\test.log，一条数据的结构如下： 2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?ac

深入理解Spark RDD缓存机制:(第4天)

syhiiu的博客

06-16

1777

本文通过缓存案例，图文等解析方式深入探讨Spark RDD的缓存机制。

参与评论您还未登录，请先登录后发表或查看评论

Spark缓存-cache

最新发布

2401_85414079的博客

05-13

336

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.youkuaiyun.com/2401_83378805/article/details/147915471。4. cache & persist & checkpoint 的特点和区别。6.MEMORY_ONLY_2, MEMORY_AND_DISK_2, 等等。二、cache & persist 的持久化级别及策略选择。2. RDD cache & persist 缓存。

Spark中的缓存(cache)和检查点(checkpoint)的使用和区别

LFQ244117370的博客

08-12

1075

cache() 底层调用的局势persist(),只能设置缓存级别为StorageLevel.MEMORY_ONLY即在内存中进行缓存 persist() 这个才是真的缓存方法 --无参重载 => 只能设置缓存级别为StorageLevel.MEMORY_ONLY即在内存中进行缓存 --有参重载 => 可以设置缓存等级是否是⽤磁盘是否使⽤内存是否使⽤堆外内存是否反序列化副本的个数 object StorageLevel { val NONE = new StorageLevel(f.

spark系列9：RDD的缓存和checkpoint机制

涤生大数据

03-17

751

深入理解Spark中的Cache和Checkpoint

qq_44665283的博客

06-15

1041

Spark中的Cache和Checkpoint机制与Hadoop MapReduce的区别 Hadoop MapReduce 在执行 job 的时候，不停地做持久化，每个 task 运行结束做一次，每个 job 运行结束做一次（写到 HDFS）。在 task 运行过程中，也不停地在内存和磁盘间 swap 来 swap 去。可是讽刺的是，Hadoop 中的 task 太傻，中途出错需要完全重新运行，比如 shuffle 了一半的数据存放到了磁盘，下次重新运行时仍然要重新 shuffle。 Spark 好的一点

Spark技术栈——Spark Core

weixin_47391932的博客

09-21

446

Spark Core 1. Spark的有几种部署模式，每种模式特点？ 1.本地模式 Spark不一定非要跑到Hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类： local：只启动一个executor。 local[k]：启动k个executor。 local[*]：启动跟CPU数目相同的executor。 2.standalone模式分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模式

spark -- 数据计算框架

weixin_46362494的博客

11-28

1118

spark作为大数据组件中不可或缺的一大部分是我们学习和了解大数据的过程中必须要经历和学习的部分本人将自己当初学习大数据的一点点心得和体会作为笔记希望可以给同样在学习大数据同学提供一点点的帮助同时也希望可以得到大家的指正。

大数据系列——Spark理论

mql007007的博客

04-26

1482

Apache Spark，全称伯克利数据分析栈，是一个开源的基于内存的通用分布式计算引擎，内部集成大量的通用算法，包括通用计算、机器学习、图计算等，用于处理大数据应用。主要由下面几个核心构件组成，具体包括：集群资源管理器(Muster Node）、任务控制节点(Driver)、任务执行节点(Worker Node)。其中集群资源管理器可自由集成其他管理器（例如Yarn、Mesos、K8s等），目前一般主流生产环境都搭载在Yarn上运行。

Spark技术内幕读书笔记：Spark核心——RDD实现详解

Big_data_implicit_

01-28

505

————Spark技术内幕读书笔记———— 深入解析内核架构设计与实现原理 Spark究竟解决了什么问题？ 1.背景：在spark出现之前，hadoop的迅速发展，hadoop分布式集群，把编程简化为自动提供位置感知性调度，容错，以及负载均衡的一种模式，用户就可以在普通的PC机上运行超大集群运算，hadoop有一个非常大的问题：hadoop是基于流处理的，hadoop会从(物理存储)hdfs中加载数据，然后处理之后再返回给物理存储hdfs中，这样不断的读取与写入，占用了大量的IO，后来hadoop出现

Spark检查点checkpoint和缓存

勇心在馨

01-05

857

一、缓存 RDD通过persist方法或cache方法可以将计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。 /** * Persist this RDD with the default storage level (...

20-简述下spark中的缓存（cache和persist）与checkpoint机制，并指出两者的区别和联系

huaxing_ba的博客

06-22

529

简述下Spark中的缓存(cache和persist)与checkpoint机制，并指出两者的区别和联系

Spark_4 SparkCore缓存和CheckPoint

Gru的博客

07-12

218

目录概述cache()和persist()区别概述如果在应用程序中多次使用同一个 RDD，可以将该 RDD 缓存起来，该 RDD 只有在第一次计算的时候会根据血缘关系得到分区的数据，在后续其他地方用到该 RDD 的时候，会直接从缓存处取而不用再根据血缘关系计算，这样就加速后期的重用。 cache在执行的时候也是 lazy 的，需要一个action触发；去除缓存时是eagle的 cache如果采...

spark（三）缓存与checkpoint

heroking

04-05

1224

一、应用场景缓存：将rdd所需的数据缓存到Executor的内存中，主要用于空间换时间，如某个spark任务期望执行时间在xx以内，目前达不到，此时在内存充足的情况下可以查看是否有重复利用的rdd数据，可以对该数据进行cache checkpoint：主要用于任务容错，比如机器学习进行迭代式计算，需要计算10小时才能出结果，如果在第9个小时任务出错，重新提交需要重新跑所有数据。可以在某些节点对...

Spark -- RDD缓存和CheckPoint

ITgagaga的博客

04-20

323

Spark – RDD缓存和CheckPoint 1. 缓存 RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。cache最终也是调用了persist方法，默认的存储级别都是仅...

SparkCore之RDD缓存与RDD CheckPoint

@小刘同学nice

08-06

205

RDD缓存 RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。通过查看源码发现cache最终也是调用了persist方法，默认的存储级别都是仅在内存存储一份，Spark的存...

Spark Cache和Checkpoint功能

maketubu7的博客

08-06

1431

Cache 和 Checkpoint 作为区别于 Hadoop 的一个重要 feature，cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大，task 中 computing chain 可能会很长，计算某些 RDD 也可能会很耗时。这时，如果 task 中途运...

Spark中的cache和checkpoint

qq_38052208的博客

11-07

538

RDD中的缓存cache：Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其它动作中重用。这使得后续的动作变得更加迅速。RD D相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。如果希望节点故障的情况不会...

SPARK--cache(缓存)和checkpoint检查点机制

中长跑路上的crush

01-13

785

也是将中间rdd数据存储起来，但是存储的位置实时分布式存储系统，可以进行永久保存，程序结束不会释放。缓存是将数据存储在内存或者磁盘上，缓存的特点时，计算结束，缓存自动清空。如果需要删除就在hdfs上删除对应的目录文件。

Spark Checkpoint原理与入门指南

Spark是一个强大的大数据处理框架，旨在提供高效、易用且功能全面的数据处理解决方案。自2009年在伯克利大学的AMPLab实验室诞生以来，Spark经历了快速的发展，逐渐成为业界广泛采用的大数据处理工具。与传统的Hadoop...