前言
Spark RDD 中提供了丰富的
行动算子可以帮助我们完成对RDD数据的一些常用统计、聚合等业务的操作,下面将常用的行动算子进行使用总结;
reduce
函数签名
def reduce(f: (T, T) => T ): T
函数说明
聚集 RDD 中的所有元素,先聚
本文总结了Spark中的常用行动算子,包括reduce用于数据聚合,count用于统计元素数量,first获取第一个元素,take获取指定数量元素,takeOrdered按特定顺序取元素,aggregate和fold进行累积操作,以及countByKey针对Key进行计数。通过案例展示了每个算子的使用和效果。
def reduce(f: (T, T) => T ): T
聚集 RDD 中的所有元素,先聚
1001
678
661
749