object TypedOperation {
case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)
def main(args: Array[String]): Unit = {
println("astron")
val spark = SparkSession
.builder()
.master("local")
.appName("star")
.getOrCreate()
import spark.implicits._
// DF->DS
val demoDf = spark.read.json("d://employee.json")
println(demoDf)
//demoDf.printSchema()
val demoDs = demoDf.as[Employee]
demoDs.show()
val distinctDemoDs = demoDs.distinct();
distinctDemoDs.show()
val dropDuplicatesDemoDs = demoDs.dropDuplicates(Seq("name"))
dropDuplicatesDemoDs.show()
}
}
spark sql dropDuplicates distinct
最新推荐文章于 2024-07-31 15:54:40 发布
本文介绍使用Apache Spark进行数据处理的方法,包括DataFrame到Dataset的转换、数据去重等操作。通过具体的代码实例展示了如何读取JSON文件,并利用Spark的高级特性进行高效的数据清洗。
9955

被折叠的 条评论
为什么被折叠?



