pyspark 去重操作总结

pyspark 中去重操作

distinct

  • rdd、dataframe 均可使用

按照某一列进行去重

1 使用reduceByKey
  • rdd 使用

  • 例子:对x[0] 进行去重,将x[0]作为key,其余作为value,(x[0],v),使用 reduceByKey(lambda x,y:x) 即可

2 使用dropDuplicates(drop_duplicates)
  • dataframe 使用

  • df.dropDuplicates([col_name1, col_name2])

3 开窗函数 ROW_NUMBER()

F.row_number().over(Window.partitionBy(col_name1).orderBy(col_name2))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值