前言
相信使用过mysql的同学对sql语句中distinct关键字并不陌生,使用distinct关键字可以对查询的数据进行去重操作,在Spark 中,可以做类似的理解;
函数签名
def distinct()(implicit ord: Ordering[T] = null): RDD[T]def distinct( numPartitions: Int )(implicit ord: Ordering[T] = null): RDD[T]
函数说明
将数据集中重复的数据去重
案例:对集合中的一组数字去重
import org.apache.spark.{S
本文介绍了Spark中distinct函数的使用,通过函数签名和案例分析,展示了如何对数据集进行去重操作,帮助理解其在数据处理中的作用。
订阅专栏 解锁全文
3035

被折叠的 条评论
为什么被折叠?



