Apache Spark 结构化 API 与应用实践
1. 构建 Scala 独立应用程序
在使用 Apache Spark 时,我们可以构建独立的 Scala 应用程序。这里以 M&M 数据统计为例,展示如何使用 Scala 和 Spark 进行数据处理。
首先,读取 CSV 文件到 Spark DataFrame:
// Read the file into a Spark DataFrame
val mnmDF = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load(mnmFile)
接着,对所有颜色的数量进行聚合,按州和颜色分组,并按总数降序排序:
// Aggregate counts of all colors and groupBy() State and Color
// orderBy() in descending order
val countMnMDF = mnmDF
.select("State", "Color", "Count")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy(desc("Total"))
然后,展示所有州和颜色的聚合结果,并输出总行数:
超级会员免费看
订阅专栏 解锁全文
1791

被折叠的 条评论
为什么被折叠?



