spark中将两个DataFrame并在一起

最新推荐文章于 2024-10-14 20:22:05 发布

原创最新推荐文章于 2024-10-14 20:22:05 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#两个DataFrame并在一起

spark 专栏收录该内容

6 篇文章

订阅专栏

本文介绍在Spark中使用DataFrame进行Join操作的两种方法：通过生成唯一ID列进行连接和利用RDD的zip()/zipPartitions()函数。同时对比了两种方法的特点，并提供了具体的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.可以先生成一列唯一的id列，再进行join

生成id列方法可以看我的另一篇：https://blog.youkuaiyun.com/liaodaoluyun/article/details/86232639

2.转成rdd，在使用zip()/zipPartitions()

 val df1: DataFrame = spark.range(0,10).toDF("col1")
 val df2: DataFrame = spark.range(10,20).toDF("col2")

 val tempRDD1: RDD[(Row, Row)] = df1.rdd.zip(df2.rdd)
 
 val tempRDD2 = tempRDD.map(x=>{
   Row(x._1.get(0),x._2.get(0))
 })
 val schema= new StructType().add("col1","long").add("col2","long")
 spark.createDataFrame(tempRDD1,schema).show()

zip()要求两个RDD的partition数及每个分区里面记录数量都要相同

zipPartitions()要求分区数相同，不要求每个分区相同数量的记录

如果有其他的方法，欢迎交流！