5、Apache Spark 结构化 API 与应用实践

反内卷战士508

于 2025-09-06 12:39:15 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握Spark：从入门到实战文章标签： Apache Spark 结构化API DataFrame

本文链接：https://blog.youkuaiyun.com/nut55/article/details/152256535

掌握Spark：从入门到实战专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Apache Spark 结构化 API 与应用实践

1. 构建 Scala 独立应用程序

在使用 Apache Spark 时，我们可以构建独立的 Scala 应用程序。这里以 M&M 数据统计为例，展示如何使用 Scala 和 Spark 进行数据处理。

首先，读取 CSV 文件到 Spark DataFrame：

// Read the file into a Spark DataFrame
val mnmDF = spark.read.format("csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load(mnmFile)

接着，对所有颜色的数量进行聚合，按州和颜色分组，并按总数降序排序：

// Aggregate counts of all colors and groupBy() State and Color
// orderBy() in descending order
val countMnMDF = mnmDF
  .select("State", "Color", "Count")
  .groupBy("State", "Color")
  .agg(count("Count").alias("Total"))
  .orderBy(desc("Total"))

然后，展示所有州和颜色的聚合结果，并输出总行数：