第三章 RDD编程

最新推荐文章于 2022-07-19 19:02:02 发布

u013392077

最新推荐文章于 2022-07-19 19:02:02 发布

阅读量428

点赞数

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： spark快速大数据分析读书笔记 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u013392077/article/details/78795906

spark 专栏收录该内容

2 篇文章

订阅专栏

本文介绍Spark中RDD的概念及其基本操作，包括如何创建RDD、执行转换操作和执行动作操作。通过实例演示了基本的RDD操作过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3.1 RDD基础

RDD——弹性分布式数据集。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含python、java、scala中任意类型的对象，甚至可以包含用户自定义的对象。

用户可以通过两种方式创建RDD：读取外部数据集和通过对象集合创建。

创建后的RDD支持两类操作：转化操作和行动操作。

转化操作会由一个RDD生成一个新的RDD。

行动操作会对RDD计算出一个结果，并把结果返回。

每个spark程序或者shell会话都按照如下方式工作：

1）从外部数据创建出输入的RDD

2）使用转化操作对RDD进行转化，定义新的RDD

3）通知spark对需要被重用的中间结果RDD执行persist（）操作

4）使用行动操作来出发一次并行计算，spark会对计算进行优化后再执行。

3.2 创建RDD

读取外部数据，例如：

val lines=sc.textFile("readme.md")

对集合进行并行化，例如：

val lines=sc.parallelize(List("a","b","c"))

3.3 RDD操作

3.3.1 转化操作

转化操作返回新的RDD，是惰性操作。例如map()和filter()

3.3.2 行动操作

行动操作对数据集进行实际的计算。例如count()和take()

3.3.3 惰性求值

RDD的转化操作都是惰性求值，也就意味着在调用行动操作之前spark不会开始计算

spark惰性求值可以把一些操作合并到一起来减少计算数据的步骤。

3.4 常见的转化操作和行动操作

1.转化操作

1）. 对一个RDD进行基本的RDD转化操作

例如对数据集{1，2，3，3}

2）. 对针对两个RDD的转化操作

例如对数据集{1,2,3}和{3,4,5}

2.行动操作

例如对数据集{1，2，3，3}

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。