Spark之SparkCore:RDD-数据核心/API【执行过程、编程模型：创建、转换、输出、运行过程】

珞沫

于 2021-01-13 11:23:41 发布

阅读量563

点赞数

分类专栏： Hadoop Spark 文章标签： spark RDD

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45666566/article/details/112555766

版权

RDD实践

1、执行过程
2、编程模型
3、RDD运行过程

1、执行过程

1、读入外部的数据源（或者内存中的集合）进行 RDD 创建；
2、RDD 经过一系列的 “转换” 操作，每一次都会产生不同的 RDD，供给下一个转换使用；
3、最后一个 RDD 经过 “行动” 操作进行处理，并输出指定的数据类型和值。

优点： 惰性调用、管道化、不需要保存中间结果。

RDD 采用了惰性调用，即在 RDD 的执行过程中，所有的转换操作都不会执行真正的操作，只会记录依赖关系，而只有遇到了行动操作，才会触发真正的计算，并根据之前的依赖关系得到最终的结果。

在这里插入图片描述
RDD执行过程中的一个示例如下：
$\quad \quad$ 如下图所示,在输入中逻辑上生成A和C两个RDD, 经过一系列"转换操作", 逻辑上生成"F"这个RDD, 之所以说是逻辑上, 是因为这个时候计算并没有发生. Spark只是记录了RDD之间的依赖关系. 当F要进行输出时, 就会执行"行动操作". Spark才会根据RDD的依赖关系生成DAG, 并从起点开始真正的计算.
在这里插入图片描述

转换操作，并不会发生真正的计算，只是记录转换的轨迹
动作操作，才会触发从头到尾的真正的计算，并得到结果

2、编程模型

$\quad \quad$ 在Spark中，RDD被表示为对象，通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后，就可以调用actions触发RDD的计算，action可以是向应用程序返回结果(count, collect等)，或者是向存储系统保存数据(saveAsTextFile等)。 在Spark中，只有遇到action，才会执行RDD的计算(即延迟计算)，这样在运行时可以通过管道的方式传输多个转换。

$\quad \quad$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。