spark sql dropDuplicates distinct

最新推荐文章于 2024-07-31 15:54:40 发布

原创最新推荐文章于 2024-07-31 15:54:40 发布 · 6.2k 阅读

1 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

14 篇文章

订阅专栏

本文介绍使用Apache Spark进行数据处理的方法，包括DataFrame到Dataset的转换、数据去重等操作。通过具体的代码实例展示了如何读取JSON文件，并利用Spark的高级特性进行高效的数据清洗。


object TypedOperation {

  case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)
  def main(args: Array[String]): Unit = {
    println("astron")
    val spark = SparkSession
      .builder()
      .master("local")
      .appName("star")
      .getOrCreate()
    import spark.implicits._
    // DF->DS
    val demoDf = spark.read.json("d://employee.json")
    println(demoDf)
    //demoDf.printSchema()
    val demoDs = demoDf.as[Employee]

    demoDs.show()
    val distinctDemoDs = demoDs.distinct();
    distinctDemoDs.show()
    val dropDuplicatesDemoDs = demoDs.dropDuplicates(Seq("name"))
    dropDuplicatesDemoDs.show()

  }

}