RDD算子介绍

最新推荐文章于 2024-08-17 12:57:15 发布

原创

最新推荐文章于 2024-08-17 12:57:15 发布 · 3.7k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了Spark中的RDD算子，包括RDD的输入、运行和输出过程，以及RDD的Transformation和Action算子。Transformation算子如map、filter和flatMap用于数据转换，而Action算子如collect、count和reduce则触发实际计算并返回结果或保存到文件系统。

一、RDD算子简介

提供一优秀RDD讲解链接：https://blog.youkuaiyun.com/fortuna_i/article/details/81170565

spark在运行过程中通过算子对RDD进行计算，算子是RDD中定义的函数，可以对RDD中数据进行转换和操作，如下图

输入：spark程序中数据从外部数据空间输入到spark中的数据块，通过BlockManager进行管理

运行：在spark数据形成RDD后，可以通过变换算子，如filter等对数据进行操作，并将RDD转换为新的RDD,通过Action算子，触发Spark提交作业。如果数据复用，可以通过cache算子将数据缓存到内存中。

输出：程序运行结束后数据会输出Spark运行时的空间，存在到分布式存在结构（如：saveAsTextFile输出到HDFS）或者scala的数据集合中。

Spark将常用的大数据操作都转化成RDD的子类，Spark操作数据模型图如下；

二、SparkRDD中的算子分类。

1.Value数据类型的Transformation算子，这种变化并不触发提供作业，针对处理的数据项是Value型的数据。

2.Key-Value类型的Transformati

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。