在pyspark中我们经常会碰到合并列或者合并行的操作,其实很简单:
合并列:
df.withColumn(新列名,df[列名]) #将df中的列合并到df中
行合并:
df.union(df1) #将df与df1进行行合并,这时df与df1的列名要相同
本文介绍了在使用Pyspark时如何轻松地实现列合并与行合并操作。对于列合并,可以通过withColumn方法来实现;而对于行合并,则可以利用union方法完成,但需要注意的是两DataFrame的列名必须相同。
在pyspark中我们经常会碰到合并列或者合并行的操作,其实很简单:
合并列:
df.withColumn(新列名,df[列名]) #将df中的列合并到df中
行合并:
df.union(df1) #将df与df1进行行合并,这时df与df1的列名要相同
1000
1229

被折叠的 条评论
为什么被折叠?