spark学习-54-Spark RDD的clean()方法

最新推荐文章于 2021-05-21 21:00:06 发布

九师兄

最新推荐文章于 2021-05-21 21:00:06 发布

阅读量2.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：大数据-spark 文章标签： spark clean RDD

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.youkuaiyun.com/qq_21383435/article/details/78745562

大数据-spark 专栏收录该内容

204 篇文章 ¥49.90 ¥99.00

订阅专栏

Spark中的ClosureCleaner.clean()方法主要用于处理闭包中的引用问题。在分布式环境中，闭包可能包含不可序列化的外部引用，这会导致在worker节点上执行失败。此方法通过递归检查并移除不可序列化及未使用的引用，降低网络IO，提升executor内存效率。该方法广泛应用于SparkContext的RPC方法中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1.概述

spark里面，大量使用了一个方法, ClosureCleaner.clean()

// 这里调用了SparkContext的clean方法
    // clean方法实际上调用了ClosureCleaner的clean方法，这里一再清除闭包中的不能序列化的变量，防止RDD在网络传输过程中反序列化失败。
    val cleanF = sc.clean(f)

private[spark

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

九师兄

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

[Spark进阶]-- spark RDD中foreachPartition和foreach说明

欢迎来到我的博客，一起探索代码里的世界！

09-14

3万+

主题：RDD的foreachPartition/foreach的操作说明：这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理. 一、foreach的操作 foreach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv...

[Spark基础]--闭包清理类ClosureCleaner

欢迎来到我的博客，一起探索代码里的世界！

04-17

3010

什么是spark闭包？我的理解：函数可以访问函数外面的变量，但是函数内对变量的修改，在函数外是不可见的。计算机中的理解：在计算机科学中，闭包（Closure）是词法闭包（Lexical Closure）的简称，是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在，即使已经离开了创造它的环境也不例外。所以，有另一种说法认为闭包是由函数和与其相关的引用环境组合而...

参与评论您还未登录，请先登录后发表或查看评论

spark中ClosureClean中的clean方法

u013761049的专栏

09-07

1540

spark里面，大量使用了一个方法, ClosureCleaner.clean()----闭包资源清楚。为了能将RDD算子正常发送到各个worker节点。那么就需要序列化的类必须是正常的(指该类中的对外部的引用也能找到) 因此对一些没有用的资源进行删除、清理。在这个类的闭包范围内。 // 这里调用了SparkContext的clean方法 // clean方法实际上调用了Clos...

SparkClean

chouduigu5018的博客

12-04

182

package com.ultrapower.main; import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import com.ultrapower.model.*; import ...

spark:清空程序运行时的所有（cache）缓存块

善皮之的博客

03-03

6801

spark:清空程序运行时的所有（cache）缓存块为啥要用到缓存在我们编写spark程序的时候，经常会用到action算子，当程序执行到action操作的代码时，开始真正地执行计算，这个时候耗时比较长。然而，当我们程序里面的action算子计算出来的需要被多次使用的时候，为了不在让程序重复再次计算。将这个action算子计算的结果进行persist或者cache（缓存）的操作，可以节省程...

SparkCore之RDD依赖关系_RDD缓存_RDD CheckPoint

Faded1573606285的博客

11-09

396

一 RDD依赖关系 1 Lineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。（1）读取一个HDFS文件并将其中内容映射成一个个元组 scala> va...

Spark Cleaner 清理器

sy532151398的博客

04-30

1571

Spark Cleaner 清理器功能概述Cleaner的创建清理逻辑RDD的清理Shuffle的清理Broadcast的清理Accum的清理Checkpoint的清理参考功能概述这里使用的是一个弱引用（WeakReference）队列，主要用于对RDD，shuffle和广播状态异步清理。当这些对象被gc回收以后，会被放入待清理队列referenceQueue中等待清理，实际的清理动作是在单独...

Spark----SparkCore 如何序列化自定义RDD操作

qq_43437122的博客

08-26

383

在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。当我们自定义一个RDD操作类的时候，通常需要在两个地方考虑序列化，分别是：传递一个方法、传递一个属性。如何传递一个方法？ 1、我们定义一个RDD工具类： class Search() { val query: String = "h" // 过滤出包含字符串的数据 def

二、Spark源码-- RDD生成及转换过程

大数据之路

06-23

718

本篇从源码角度介绍下RDD的生成和转换过程 RDD生成过程 RDD生成有几种方式，最常用的是sparkContext.textFile方法 def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped...

SparkRDD - 基础编程

Sarahdsy的博客

06-09

825

SparkRDD - 基础编程 RDD序列化闭包检测从计算的角度，算子以外的代码都是在Driver端执行，算子里面的代码都是在Executor端执行。那么在scala的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭合的效果。如果使用的算子外的数据无法序列化，就意味着无法传值给Executor端执行，就会发生错误。所以，需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。 Scala2.12版本后闭包编译方式发生了改变。源码说明我们执行col

spark闭包清理器ClosureCleaner

不说话装高手

09-02

2998

在spark给出的闭包清理器中的代码注释中，关于闭包的例子，给出了一个类作为例子，稍作修改如下。 class SomethingNotSerializable { def someMethod(): Unit = scope("one") { def y = someValue scope("two") { println(y + 1) } } ...

Spark闭包清理类ClosureCleaner简析

qq_32445015的博客

05-21

415

Spark闭包清理类ClosureCleaner简析从6月初开始因为一些工作上的事情，已经好久没有写博客了，这次把之前Spark源码阅读中深入了解的Spark闭包清理类ClosureCleaner简单介绍下，将知识留个档以便以后忘记了还有个地方来还原下思路。 Scala闭包机制回顾在之前文章Spark闭包清理类ClosureCleaner简析中已经简单介绍了Scala的闭包实现方式，即用$outer字段来从闭包中引用外部的变量。另外在另一篇文章慎用Scala中的return表达式中，介绍了在l

spark的ContextCleaner清理

不说话装高手

04-27

2032

ContextCleaner是Spark中用来清理无用rdd，broadcast等数据的清理器，其主要用到的是java的weakReference弱引用来达成清理无用数据的目的。 ContextCleaner主要由两个线程两个集合组成。 private val referenceBuffer = Collections.newSetFromMap[CleanupTaskWeakRe...

Spark如何实现MapReduce中的setup和cleanup方法

nzq1234的专栏

04-28

1617

在MapReduce中，Mapper和Reducer可以声明一个setup方法，在处理一个split输入之前执行，来进行分配数据库连接等昂贵资源，同时可以用cleanup函数可以释放资源。 public class SetupCleanupMapper extends Mapper { private Connection dbConnection; @Ov

RDD源码分析：ClosureCleaner

chunhuakai1963的博客

08-30

153

最近在看spark的源码，发现好多rdd如：map，flatMap，filter等rdd中都有一段相同的代码： val cleanF = sc.clean(f) 当时就很疑惑，为什么都有这段代码，rdd的逻辑又不是一样的，于是，继续往下看，最终找到了ClosureCleaner.clean...

Flink源码阅读(五)ClosureCleaner

abcdef324的博客

05-05

1718

简介查看flink源码时,发现api中有clean()方法,例如下图所示 public <K> KeyedStream<T, K> keyBy(KeySelector<T, K> key) { Preconditions.checkNotNull(key); return new KeyedStream<>(this, clean(key)...

spark三种清理数据的方式：UDF，自定义函数，spark.sql；Python中的zip()与*zip()函数详解//及python中的*args和**kwargs

sinat_26566137的博客

07-30

1377

（1）UDF的方式清理数据 import sys reload(sys) sys.setdefaultencoding('utf8') import re import json from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql.functions import udf fro...

Spark算子 - JAVA版本命令行

最新发布

05-21

### Spark算子在JAVA命令行中的使用方法及相关示例以下是关于如何在 Java 命令行环境中使用 Spark 算子的相关说明以及具体示例： #### 1. 配置开发环境为了能够在命令行中运行基于 Java 的 Spark 应用程序，首先需要完成以下准备工作： - 安装 JDK 和 Maven 工具。 - 创建一个 Maven 项目并引入必要的依赖项。 Maven `pom.xml` 文件应包含如下依赖项以支持 Spark 功能[^1]: ```xml <dependencies>  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </dependency>  <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-api</artifactId> <version>1.7.30</version> </dependency> <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-simple</artifactId> <version>1.7.30</version> </dependency> </dependencies> ``` #### 2. 编写 Java 程序下面是一个简单的 WordCount 示例，展示如何通过 Java 使用 Spark 提供的算子来处理数据集[^2]: ```java import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import java.util.Arrays; import java.util.List; import scala.Tuple2; public class SparkWordCount { public static void main(String[] args) { // 初始化 Spark 配置和上下文 SparkConf conf = new SparkConf() .setAppName("JavaWordCountExample") .setMaster("local"); // 设置本地模式运行 try (JavaSparkContext sc = new JavaSparkContext(conf)) { // 准备输入数据 List<String> data = Arrays.asList( "hello spark", "hello world", "word count example" ); JavaRDD<String> lines = sc.parallelize(data); // 执行 map-reduce 流程 JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split("\\s+")).iterator()); JavaPairRDD<String, Integer> wordPairs = words.mapToPair(word -> new Tuple2<>(word, 1)); JavaPairRDD<String, Integer> wordCounts = wordPairs.reduceByKey((a, b) -> a + b); // 输出结果到控制台 System.out.println("Word counts:"); wordCounts.foreach(tuple -> System.out.println(tuple._1() + ": " + tuple._2())); } } } ``` 此代码片段展示了如何利用 Spark 中的核心算子（如 `flatMap`, `mapToPair`, 和 `reduceByKey`），从而实现单词计数功能。它还演示了如何初始化 Spark 上下文，并将字符串列表作为输入源进行分布式计算[^2]。 #### 3. 构建与执行应用程序构建该应用可以借助 Maven 来完成编译打包操作，在项目的根目录下运行以下命令即可生成可执行 JAR 文件[^1]: ```bash mvn clean package -DskipTests=true ``` 随后可以通过提交脚本启动 Spark Job，例如在本地测试环境下可以直接调用 `spark-submit` 命令[^3]: ```bash spark-submit --class com.example.SparkWordCount \ --master local \ target/your-application-name.jar ``` 这里需要注意的是替换路径参数为实际生成 jar 包的位置信息。 ---