Spark--透视函数pivot应用

Lapchi

已于 2023-02-05 22:04:04 修改

阅读量437

点赞数

文章标签： scala 开发语言大数据

于 2023-02-05 14:18:51 首次发布

本文链接：https://blog.youkuaiyun.com/m0_51674537/article/details/128890233

版权

本文介绍了Spark中透视函数pivot的使用，通过示例展示了如何将数据行转换为列，并结合groupBy、pivot、agg和orderBy等操作进行数据处理。内容包括如何按照年月分组，选择特定项目的收入进行行列转换，最后按年月升序排序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创建dataframe

    val df = spark.createDataFrame(Seq(
      ("2018-01", "项目1", 100),
      ("2018-01", "项目2", 200),
      ("2018-01", "项目3", 300),
      ("2018-02", "项目1", 1000),
      ("2018-02", "项目2", 2000),
      ("2018-03", "项目x", 999))).toDF("年月", "项目", "收入")

df.show()

+-------+-----+----+

| 年月| 项目|收入|

+-------+-----+----+

|2018-01|项目1| 100|

|2018-01|项目2| 200|

|2018-01|项目3| 300|

|2018-02|项目1|1000|

|2018-02|项目2|2000|

|2018-03|项目x| 999|

+-------+-----+----+

pivot作用为：行列转换

df.groupBy("年月")
.pivot("项目", Seq("项目1","项目2","项目3","项目x","unknow"))
.agg(sum("收入"))
.orderBy(asc("年月"))
.show(false)

意思是：

groupBy("年月") ->对“年月”列，进行分组

pivot("项目", Seq("项目1","项目2","项目3","项目x","unknow")) -> 选中原dataframe中的“项目”列，将此表头转换为Seq中"项目1","项目2","项目3","项目x","unknow"表头

agg(sum("收入")) -> 聚合和汇总“收入”列的数据，将其填到对应新表头的行内容中

orderBy(asc("年月")) -> 按照“年月”进行升序排序

年月	项目1	项目2	项目3	项目x	unknow
2018-01	100	200	300	null	null
2018-02	1000	2000	null	null	null
2018-03	null	null	null	999	null

上述代码等价于

df.groupBy("年月")
.pivot("项目", Seq("项目1","项目2","项目3","项目x","unknow"))
.sum("收入")
.orderBy(asc("年月"))
.show(false)