194、Spark 2.0之Dataset开发详解-typed操作：sort

最新推荐文章于 2023-07-31 18:17:31 发布

原创最新推荐文章于 2023-07-31 18:17:31 发布 · 329 阅读

0 ·

CC 4.0 BY-SA版权

Spark入坑专栏收录该内容

207 篇文章

订阅专栏

本文介绍如何使用Apache Spark读取并处理JSON格式的数据。通过创建Employee案例类，利用SparkSession读取本地JSON文件，并将其转换为DataFrame和Dataset进行排序展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码

object TypedOperation {

  case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)

  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession
      .builder()
      .appName("BasicOperation")
      .master("local")
      .getOrCreate()

    import sparkSession.implicits._
    import org.apache.spark.sql.functions._

    val employeePath = this.getClass.getClassLoader.getResource("employee.json").getPath

    val employeeDF = sparkSession.read.json(employeePath)

    val employeeDS = employeeDF.as[Employee]

    employeeDS.sort(employeeDS("salary").desc, employeeDS("age").asc).show()
  }
}