用sample算子找数据倾斜的key

重生之我在异世界打工

于 2020-05-19 20:44:16 发布

阅读量218

点赞数

CC 4.0 BY-SA版权

分类专栏： saprk

本文链接：https://blog.youkuaiyun.com/weixin_44628586/article/details/106222627

saprk 专栏收录该内容

3 篇文章

订阅专栏

本文通过使用Apache Spark的sample和reduceByKey方法，演示了如何从数据集中找出导致数据倾斜的关键值。通过采样和减少操作，可以有效地识别出频率较高的元素，这对于优化大数据处理任务的性能至关重要。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

object Sample找数据倾斜的key {
  def main(args: Array[String]): Unit = {
    val wordCount = new SparkConf().setMaster("local[*]").setAppName("wordCount")
    val sc = new SparkContext(wordCount)
    val list: List[String] = List("a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a",
      "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "a", "b", "b", "b", "c", "c", "d", "r")
    val data = sc.makeRDD(list)
    val unit: RDD[String] = data.sample(true, 0.5, 3)
    val tuples: Array[(String, Int)] = unit.map((_, 1))
      .reduceByKey((x, y) => x + y)
      .sortBy(_._2, false)
      .collect()
    tuples.foreach(print(_))
  }
}