spark关于join后有重复列的问题（org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous）...

最新推荐文章于 2025-07-23 11:22:18 发布

转载最新推荐文章于 2025-07-23 11:22:18 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/chushiyaoyue/p/6927488.html

文章标签：

#大数据

问题

datafrme提供了强大的JOIN操作,但是在操作的时候，经常发现会碰到重复列的问题。在你不注意的时候，去用相关列做其他操作的时候，就会出现问题！

假如这两个字段同时存在，那么就会报错，如下：org.apache.spark.sql.AnalysisException: Reference 'key2' is ambiguous

实例

1.创建两个df演示实例

val df = sc.parallelize(Array(
    ("yuwen", "zhangsan", 80), ("yuwen", "lisi", 90), ("shuxue", "zhangsan", 90), ("shuxue", "lisi", 95)
)).toDF("course", "name", "score")

显示：df.show()

val df2 = sc.parallelize(Array(
    ("yuwen", "zhangsan", 90), ("shuxue", "zhangsan", 100)
)).toDF("course", "name", "score")

显示：df2.show

关联查询：

val joined = df.join(df2, df("cource") === df2("cource") && df("name") === df2("name"), "left_outer")

结果展示：

这时候问题出现了这个地方出现了三个两两相同的字段，当你在次操作这个字段的时候就出问题了。

解决问题

1.你可以使用的时候指定你要用哪个df里面的字段

joined.select(df("course"),df("name")).show

结果：

2.你可以删除多余的列，在实际情况中你不可能将两张完全一样的表进行关联，一般就几个字段的名字相同，这样你可以删除你不需要的字段

joined.drop(df2("name"))

结果：

3.就是通过修改JOIN的表达式，完全可以避免这个问题。主要是通过Seq这个对象来实现

df.join(df2, Seq("course", "name")).show()

结果：

转载于:https://www.cnblogs.com/chushiyaoyue/p/6927488.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33682790

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Hudi Spark SQL源码学习总结-CTAS

主要分享大数据相关的知识，如Spark、Hudi

08-01

1162

上一篇文章Hudi Spark SQL源码学习总结-Create Table总结了Create Table的源码执行逻辑，这一篇继续总结CTAS，之所以总结CTAS，是之前在我提交的一个PR中发现，Spark2和Spark3.2.1版本的CTAS的逻辑不一样，最终走的Hudi实现类也不一样，所以本文分Spark2和Spark3.2.1两个版本分析......

SQL基础（四）-- SQL连接时去掉重复数据

weixin_30478923的博客

10-19

1547

一、关键词 DISTINCT 用于返回唯一不同的值，只可以在select中使用。 1.重复数据完全一样，用distinct select distinct * from table 根据字段去重用distinct select distinct 列名称 from表名称（对一列进行操作） select distinct列名称1，列名称2 from表名称（对多列进行操作）：对多列操...

参与评论您还未登录，请先登录后发表或查看评论

sparksql表join，如果两表字段名相同

qq_41269273的博客

12-19

2851

sc.join(student,sc("sid")===student("sid"), "left").show 通过表名指定，这样就可以了

SQL根据列属性删除两表JOIN后的单列重复数据--ROW_NUMBER() over(partition)

weixin_44838477的博客

12-23

2255

主要用到了以下的方法： select ROW_NUMBER() over(partition by A order by B ) as keyId from table A ：为分组字段 B：为分组后的排序字段。 keyId：分组编号开发中遇到的需要在职员工的总数，需要按各种属性(部门、员工类型、班别班制等)进行分组后的部门人数再进行统计，避免以后遇到类似问题，写了个简化版供参考。 select GG.*,case keyId w

Spark SQL 写入 Json 格式文件报错 org.apache.spark.sql.AnalysisException: Found duplicate column(s)

weixin_37417954的博客

07-03

5416

错误场景如下两个 Json 文件 person.json {"name":"路飞","age":17,"deptno":1,"money":15} {"name":"索隆","age":18,"deptno":1,"money":9} {"name":"乔巴","age":5,"deptno":1,"money":5} {"name":"艾斯","age":18,"deptno":...

select报错 spark_关于在使用sparksql写程序是报错以及解决方案：org.apache.spark.sql.AnalysisException: Duplicate column(s)...

weixin_42178688的博客

12-23

462

说明：spark --version : 2.2.0我有两个json文件，分别是emp和dept：emp内容如下：{"name": "zhangsan", "age": 26, "depId": 1, "gender": "male", "salary": 20000}{"name": "lisi", "age": 36, "depId": 2, "gender": "female", "sala...