Spark介绍系列05--RDD

最新推荐文章于 2022-07-27 14:09:45 发布

李孟聊人工智能

最新推荐文章于 2022-07-27 14:09:45 发布

阅读量785

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark实战文章标签： spark

本文为博主（李孟）原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/qq_19968255/article/details/82803799

Spark实战专栏收录该内容

25 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文介绍了Spark的RDD核心概念，包括Lineage（血统）记录RDD转换过程，以恢复丢失数据；RDD缓存提高运算效率，通过persist或cache方法实现，并探讨了存储级别和缓存容错机制；最后，讨论了DAG的生成，根据RDD的窄依赖和宽依赖划分Stage。

url:Spark介绍系列04--RDD

一.Lineage

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

二.RDD的缓存

Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或缓存个数据集。当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RDD进行的其他动作中重用。这使得后续的动作变得更加迅速。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。

三.RDD缓存方式

RDD通过persist方法或cache方法可以将前面的计算结果缓存，但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。

通过查

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

李孟聊人工智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。