Spark -- 计算各列的特征数量

TheBiiigBlue

于 2019-07-24 14:05:29 发布

阅读量1.3k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： SparkSQL

本文链接：https://blog.youkuaiyun.com/Aeve_imp/article/details/97125184

Spark 专栏收录该内容

21 篇文章

订阅专栏

本文介绍如何使用 Spark 的 approx_count_distinct 函数高效地计算多列中不同元素的数量，通过示例展示了该函数在 DataFrame 上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多于计算一列中有多少特征，这个就直接distinct再count一下就出来了，但是对于指定的多列进行操作，如果使用循环操作，那效率，简直了。。。对于这么一种情况，我们可以使用spark的approx_count_distinct函数来操作。

val df = Seq((1,3,4),(1,2,3),(2,3,4),(2,3,5)).toDF("col1","col2","col3")

val exprs = df.columns.map((_ -> "approx_count_distinct")).toMap
df.agg(exprs).show()
// +---------------------------+---------------------------+---------------------------+
// |approx_count_distinct(col1)|approx_count_distinct(col2)|approx_count_distinct(col3)|
// +---------------------------+---------------------------+---------------------------+
// |                          2|                          2|                          3|
// +---------------------------+---------------------------+---------------------------+