Spark报错:The pivot column feature has more than 10000 distinct values

当使用Pyspark进行窄表转宽表操作时,遇到超过10000个不同值的错误提示。通过调整spark.sql.pivotMaxValues参数至30000,成功解决了问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(作者:陈玓玏 data-master)

用pyspark做窄表转宽表的时候,出现报错:

pyspark.sql.utils.AnalysisException: 
u'The pivot column feature has more than 10000 distinct values, 
this could indicate an error. 
If this was intended, 
set spark.sql.pivotMaxValues to at least 
the number of distinct values of the pivot column.;'

在这里插入图片描述

好可怕,看字面意思,我的窄表里出现了超过1W个item,要知道这个是造的因子,也就是说有超过1W个因子?

虽然很可怕,但既然碰到问题,就要解决问题,解决问题的方法,报错里已经给出了,就是设置一下spark.sql.pivotMaxValues这个参数。

然后我就直接在hive里查了一下,我总共有多少个item,查出是2W6,于是把参数spark.sql.pivotMaxValues设置成30000,报错消失。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值