
Spark
QianL.
这个作者很懒,什么都没留下…
展开
-
Spark RDD中两种算子之一:常见Transformation算子小结
RDD:弹性分布式数据集,是一种特殊集合,支持多来源,有容错机制,可以被缓存,支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种算子: 1.Transformation(转换):属于延迟Lazy计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住数据集的逻辑操作; 2.Action(执行):触发Spark作业运行,真正触发转换算子的计算; RDD中算子的运行过程: 输入...原创 2019-03-26 13:40:39 · 1626 阅读 · 0 评论 -
Spark RDD中两种算子之一:常见Action算子小结
常见Action算子: reduce(func):通过函数func聚集集合中的所有的元素。func函数接收2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确地并发执行。这个算子不像reduceByKey一样通过key进行分组,所以其是一个全量的操作。 collect():在Driver的程序中,以数组的形式,返回数据集的所有元素。但是,请注意,这个只能在返回一个较小的数据子集时才能使用...原创 2019-03-26 20:02:34 · 4712 阅读 · 1 评论