Spark 面试题(七)

1. Spark中的Transform和Action,为什么Spark要把操作分为Transform 和Action?常用的列举一些,说下算子原理 ?

在Spark中,操作被分为转换(Transformation)和行动(Action)两种类型,这种设计主要是为了实现Spark的惰性执行(Lazy Evaluation)模型,提高计算效率和优化执行计划。下面是对转换和行动的简述,以及一些常用的操作和它们的原理。

转换(Transformation)

转换操作是对RDD、DataFrame或Dataset进行的操作,它们定义了一个新的分布式数据集,但不立即执行计算。转换操作创建了依赖关系,这些依赖关系会在后续的行动操作中被触发。

常用转换操作

  • map:对RDD中的每个元素应用一个函数,生成一个新的RDD。
  • filter:根据条件过滤RDD中的元素,生成一个新的RDD。
  • groupByKey:按照键对RDD中的元素进行分组,生成一个(K, V)类型的RDD。
  • reduceByKey:合并具有相同键的元素,通过一个合并函数。
  • join:根据键将两个RDD连接起来,生成一个新的RDD。
  • select:在DataFrame中选择特定的列。
  • where:在DataFrame中过滤行。

转换原理
转换操作记录了对数据的变换逻辑,但不会立即执行。它们创建了转换规则,这些规则被Spark的优化器用来构建一个执行计划。当行动操作触发时,Spark会根据这些规则和数据依赖关系,生成一个高效的执行图。

行动(Action)

行动操作是触发实际计算的指令,它们告诉Spark需要执行计算并返回结果。行动操作会触发从根节点开始的所有转换操作的执行。

常用行动操作

  • count:返回RDD中的元素数量。
  • collect:返回RDD中的所有元素到驱动程序的内存中。
  • take:返回RDD中前n个元素。
  • reduce:使用给定的函数对所有元素进行归约。
  • saveAsTextFile:将RDD的内容保存到文本文件。
  • show:在DataFrame中显示前n行数据。

行动原理
行动操作是Spark执行计划的触发点。当一个行动操作被调用时,Spark会根据之前记录的所有转换操作,生成一个物理执行计划。这个计划会考虑数据的本地性、并行度和资源分配等因素,以优化整体的执行效率。

为什么分为Transform和Action
  • 惰性执行:Spark利用惰性执行模型来延迟计算,直到行动操作被触发,这样可以减少不必要的计算和资源浪费。
  • 优化执行计划:通过记录转换操作而不是立即执行,Spark的优化器可以在行动操作触发时,根据整个转换链来优化执行计划。
  • 中间数据重用:转换操作创建的RDD可以被多个行动操作重用,这样可以避免重复计算,提高效率。
  • 容错性:转换操作定义了数据转换的逻辑,Spark可以使用这些信息来重建丢失的分区,提高系统的容错性。

通过将操作分为转换和行动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依邻依伴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值