《Spark快速大数据分析》总结--(3)

本文深入讲解了Spark中RDD的基本概念,包括RDD的创建方式、特性及其支持的操作类型。介绍了通过读取外部数据集或分发驱动器程序中的对象集合来创建RDD的方法,以及区分转化操作与行动操作的重要技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第3章 RDD编程

3.1 RDD基础

1、Spark中的RDD是一个不可变的分布式对象集合。

2、两种方式创建RDD:读取一个外部数据集、在驱动器程序里分发驱动器程序中的对象集合。

3、RDD支持两种类型的操作

(1)转化操作:由一个RDD生成一个新的RDD。

(2)行动操作:对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中。

Tips:区别两个操作的方法是观察两者的返回值类型,转化操作返回的是RDD,而行动操作返回的是其他数据类型。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值