Pyspark 对String列进行Pivot操作

最新推荐文章于 2023-02-20 16:43:50 发布

原创最新推荐文章于 2023-02-20 16:43:50 发布 · 722 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #big data

tools 专栏收录该内容

14 篇文章

订阅专栏

该博客展示了如何在PySpark中对数据帧执行分组和透视操作，以根据'key_type'列聚合'cuid'列的'value'。通过使用first函数，将不同'key_type'的'value'值展示在单独的列中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：https://stackoverflow.com/questions/37486910/pivot-string-column-on-pyspark-dataframe
使用 from pyspark.sql.functions import first

import pyspark
import os 
from pyspark import SparkContext, SparkConf
from pyspark.sql.session import SparkSession
conf = SparkConf().setAppName('test_parquet')
sc = SparkContext('local', 'test', conf=conf)
spark = SparkSession(sc)
data = [("aaa", 1, 'x'), ("aaa", 2, 'xx'), ("bbb", 1, 'xxx'), ("ccc", 1, 'xxxx'),("ddd", 3, 'xxxx')]
column = ['cuid', 'key_type', 'value']
df = spark.createDataFrame(data=data, schema=column)
df.printSchema()
#root
# |-- cuid: string (nullable = true)
# |-- key_type: long (nullable = true)
# |-- value: string (nullable = true)
df.show(truncate=False)
#+----+--------+-----+                                                           
#|cuid|key_type|value|
#+----+--------+-----+
#|aaa |1       |x    |
#|aaa |2       |xx   |
#|bbb |1       |xxx  |
#|ccc |1       |xxxx |
#|ddd |3       |xxxx |
#+----+--------+-----+
from pyspark.sql.functions import first
df.groupby('cuid').pivot("key_type").agg(first("value")).show()
#+----+----+----+----+
#|cuid|   1|   2|   3|
#+----+----+----+----+
#| aaa|   x|  xx|null|
#| bbb| xxx|null|null|
#| ccc|xxxx|null|null|
#| ddd|null|null|xxxx|
#+----+----+----+----+