CombineBykey实现distinct和groupby

最新推荐文章于 2025-11-28 12:26:41 发布

原创最新推荐文章于 2025-11-28 12:26:41 发布 · 357 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

12 篇文章

订阅专栏

本文介绍如何利用CombineByKey函数在Spark中实现数据去重与分组操作。通过具体实例展示了如何结合partitionBy进行高效的数据处理，使用Set来确保数据唯一性。

//combineBykey既能实现distinct，也能实现groupby，原因见下：
val rdd2: RDD[(String, Set[String])] = rdd1.
  map(x => (x.phone_no + x.wifi, x.lat + split + x.lng)).
  partitionBy(wifi_part).
  combineByKey(
    (it: String) => Set(it),
    (curS: Set[String], it: String) => curS + it,
    (curS1: Set[String], curS2: Set[String]) => curS1 ++ curS2
  )
//说明，先用partitionBy将同一key值的数据刷新到同一partition内，再用combineByKey实现聚合，聚合时用set完成去重。