大数据之PySpark的RDD介绍

「已注销」

已于 2023-06-23 17:08:04 修改

阅读量1k

点赞数

分类专栏： Spark 文章标签：大数据 spark

于 2023-05-06 23:09:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43339889/article/details/130536578

版权

Spark 专栏收录该内容

10 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了Spark中的核心概念RDD，包括其作为不可变、可分区数据集的特性，以及RDD的5大特性与特点，如分区、只读、依赖关系、缓存和检查点等，阐述了RDD在并行计算中的作用和如何通过RDD实现数据处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
一、RDD简介
二、RDD的特性
三、RDD的特点
总结

前言

之前的文章主要介绍Spark基础知识，例如集群角色、Spark集群运行流程等，接下来会进一步讨论Spark相对核心的知识，让我们拭目以待，同时也期待各位的精彩留言！

一、RDD简介

RDD称为弹性分布式数据集，是Spark中最基本的数据抽象，其为一个不可变、可分区、元素可并行计算的集合；RDD中的数据是分布式存储，可用于并行计算，同时，RDD中的数据可以存储在内存或者磁盘中，这就是“弹性”的意义所在。
在这里插入图片描述

二、RDD的特性

RDD有5大特性，前三个特性是每个RDD必备的，而后面两个特性是可选的，特性分别为：
（1）RDD数据集可分区；
（2）一个函数会作用在RDD的每一个分区上；
（3）RDD间存在依赖关系，RDD的每一次转换都会生成一个全新的RDD，新旧RDD间存在依赖关系，当分区的部分数据丢

了解本专栏

超级会员免费看

「已注销」

博客等级

码龄7年

58
原创

136
点赞

91
收藏

135
粉丝

关注

私信

热门文章

分类专栏

Spark 付费 10篇
Java 付费 13篇
Python 1篇
大数据 2篇
Kafka 4篇
总结 1篇
Phoenix 4篇
Hive 7篇
Hadoop 7篇
ZooKeeper 3篇
HBase 3篇
Linux 2篇
Doris 1篇

展开全部收起

上一篇：: 大数据之Spark集群角色

下一篇：: 大数据之PySpark的RDD创建和分区

最新评论

Python学习之路
Gauss松鼠会: 很详细的记录，边学边记录，很好的内容，赞
大数据之PySpark的RDD创建和分区
Gauss松鼠会: 每一个步骤都很详细，很好的指导
大数据导航栏帖
神秘泣男子: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
Python学习之路
Srlua小谢: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
大数据之RDD的算子分类
经海路大白狗: 内容很好，读完后，让我学到了很多

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

「已注销」 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。