Spark源码——RDD中join操作的宽窄依赖探究

最新推荐文章于 2024-03-25 18:08:35 发布

Vigoroushui

最新推荐文章于 2024-03-25 18:08:35 发布

阅读量435

点赞数

分类专栏： Spark 文章标签： spark 大数据 scala

本文链接：https://blog.youkuaiyun.com/qq_37654889/article/details/117959337

版权

本文深入探讨了Spark中的join操作，通过源码分析揭示了join何时形成宽依赖和窄依赖。当两个RDD没有预设分区或分区数不同时，join会触发shuffle，形成宽依赖；若预先设置了相同的分区数，join则为窄依赖，避免了数据shuffle，提高了效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   SparkConf, SparkContext}

object JoinDemo {
   
	def main(args: Array[String]): Unit = {
   
    val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    
    val random = scala.util.Random
    val col1 = Range(1, 50).map(idx => (random.nextInt(10), s"user$idx"))
    val col2 = Array((0, "BJ"), (1, "SH"), (2, "GZ"), (3, "SZ"), (4, "TJ"), (5, "CQ"), (6, "HZ"), (7, "NJ"), (8, "WH"), (0,"CD"))
    val rdd1: RDD[(Int,