RDD (Resilient Distributed Dateset) 弹性分布式数据集

本文深入解析了RDD(弹性分布式数据集)的五大特性,包括其由partition组成的方式、算子的作用、依赖关系、K-V格式及数据本地化计算原则。探讨了RDD如何实现弹性与分布式,以及K-V格式的具体含义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RDD(Resilient Distributed Dateset) 弹性分布式数据集

RDD不存数据, partition也是不存数据的

RDD 五大特性

1、RDD 是有由一系列partition 组成的 – 从hdfs 读取多少个block 就有 多少个 partition

2、算子(函数)是作用在partition 上的

3、RDD之间有依赖关系 – RDD2丢了 可以从RDD1 生成

4、分区器作用在K,V 格式的RDD上

5、partition 提供数据最佳的计算位置,利于数据处理本地化,“计算移动,数据不移动”

RDD3 如果没了 可以从 RDD2 生成

也就是 RDD3依赖于RDD2 RDD2 依赖于RDD1

问题:

1、什么是K,V格式的RDD?

RDD中的数据 是一个个的tuple2,这个RDD就是K,V格式的RDD

2、sc.textFile(…)底层实际上调用的是MR读取HDFS问阿金的方法,首先会split(切片),每一个split大小与一个block相同,这里的split对应的RDD的一个partition

3、哪里体现了RDD的弹性(容错)?

1)RDD之间有依赖关系
2)RDD的partition个数可多可少

4、哪里体现了RDD的分布式?

partition是分布在多个节点的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值