RDD行动算子:
是能触发真正计算数据的算子
reduce:聚集RDD元素
collect:返回数据集所有元素
foreach:分布式遍历元素
count:返回元素个数:
first:返回首个元素
take:返回前n个元素
takeOrdered:返回排序后的前n个元素
aggregate:分区和分区间数据聚合
fold:简化版aggregate
countByKey:统计每种key的个数
save:保存数据到不同格式文件
累加器:
可将Executor端变量信息聚合到Driver端。Driver定义的变量在Executor的每个Task都有副本,更新后传回Driver端合并。还介绍了自定义累加器实现wordcount的方法,需创建继承AccumulatorV2的类并实现相关方法 。
行动算子案例代码:
累加器案例代码: