大数据技术之Spark Core编程

                           Spark Core

RDD行动算子:

行动算子就是会触发action的算子,触发action的含义就是真正的计算数据

Reduce

聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据

Collect

在驱动程序中,以数组 Array 的形式返回数据集的所有元素

Foreach

分布式遍历 RDD 中的每一个元素,调用指定函数

Count

返回 RDD 中元素的个数

first

take

返回一个由 RDD 的前 n 个元素组成的数组

takeOrdered

Aggregate

分区的数据通过初始值和分区内的数据进行聚合,然后再和初始值进行分区间的数据聚合

Fold

折叠操作,aggregate 的简化版操作

countByKey

累加器

实现原理

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge

广播变量

实现原理

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,

广播变量用起来都很顺手。在多个并行操作中使用同一个变量,但是 Spark 会为每个任务分别发送

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值