Spark中什么是RDD,什么是算子

RDD(Resilient Distributed Dataset)是Spark的基本数据结构,存储计算逻辑而非实际数据,通过DAG有向无环图组织。RDD具有弹性(容错)和分布式特性,转换算子如map、filter和flatMap实现延迟执行。行动算子如count、collect和foreach触发计算并返回结果。控制算子如持久化和checkpoint用于优化性能和减少计算成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark中什么是RDD,什么是算子

RDD(Resilient Distributed Dataset),弹性分布式数据集。


RDD理解图
在这里插入图片描述
  RDD是Spark数据结构最基本的抽象化概念之一。
  本质上 RDD是不存数据的,存的是计算逻辑,打个比方:
  有一个流水线工厂里面有工人RDD1、RDD2、RDD3当一个工件下来时RDD1做的是flatMap()加工,做完之后,被加工后的工件传到RDD2那边做map()加工,之后再传给RDD3做一些其他加工。 直到工件加工完成 出货为止。。。
  RDD采用这样的一种弹性分布式数据集当作临时结果,达到对数据的计算优化和高效处理
:从前到后的加工顺序可以理解为 DAG有向无环图


什么是K,V格式的RDD?

  • 如果RDD里面存储的数据都是二元组对象,那么这个RDD我们就叫做K,V格式的RDD

哪里体现RDD的弹性(容错)?

  • partition数量,大小没有限制,体现了RDD弹性</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值