RDD概述

RDD(弹性分布式数据集)是Spark的核心数据抽象,具备弹性、不可变性、可分区和并行计算特点。弹性体现在内存与磁盘自动切换、容错恢复、计算重试和分片调整。不可变意味着每次操作都会创建新RDD。RDD由分区、计算函数、依赖关系、分区函数和存储位置等属性定义,支持转换和动作操作。缓存和检查点机制提高性能和容错能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是RDD?

RDD叫做弹性分布式数据集,是Spark中基本的数据抽象,代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面元素可并行计算的集合。

一、我相信大家最疑惑的就是“什么是弹性分布式数据集”弹性就是:
存储的弹性:内存与磁盘的自动切换
容错的弹性:数据丢失可以自动恢复
计算的弹性:计算出错重试机制
分片的弹性:可根据需要重新分片。
二、什么是不可变:
简单来说就是创建一个RDD如果更改,并不是真正意义上的更改,只是又创建了一个新的RDD
三、可分区:
这个的意思我想我不需要解释,可分区的意思就是能分区
四、并行计算
学过线程的都知道什么是
以上只是简单了解一下,接下来我把官方的解释给大家拿出来

RDD的属性

  1. 一组分区(Partition),即数据集的基本组成单位;
  2. 一个计算每个分区的函数;
  3. RDD 之间的依赖关系;
  4. 一个 Partitioner,即 RDD 的分片函数;
  5. 一个列表,存储存取每个 Partiti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值