spark 两个dataFrame之间join 空值操作

最新推荐文章于 2024-10-13 21:07:53 发布

原创

最新推荐文章于 2024-10-13 21:07:53 发布 · 3.2k 阅读

1 ·

CC 4.0 BY-SA版权

本文探讨了在Spark中如何处理DataFrame join时遇到的空值问题。通过示例展示了使用默认join操作会过滤掉含有空值的记录，而通过特定符号可以包含空值进行join。作者还提供了一个自定义方法来简化这种操作，并邀请读者分享更优的解决方案。

spark Join空值操作

开门见山

准备数据:

    val struct1: StructType = StructType(Seq(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("age", StringType, true)
    ))

    val javaRows: util.List[Row] = List[Row](
      Row(1, "zhangsan", "18"),
      Row(1, null, "19"),
      Row(2, "wangwu", "24"),
      Row(4, "maliu", "16")
    ).asJava


    val struct2: StructType = StructType(Seq(
      StructField("id", IntegerType, true),
      StructField("name", StringType, true),
      StructField("english", StringType, true)
    ))

    val javaRows1: util.List[Row] = List[Row](
      Row(1, "xiaohong", "64"),
      Row(1, null, "56"),
      Row(3, "xiaomin", "65"),
      Row(4, null, "83")
    ).asJava

    val df1: DataFrame = spark.createDataFrame(javaRows, struct1)
    val df2: DataFrame = spark.createDataFrame(javaRows1, struct2)