pyspark处理数据技巧

最新推荐文章于 2024-11-10 07:00:00 发布

原创最新推荐文章于 2024-11-10 07:00:00 发布 · 988 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python 专栏收录该内容

33 篇文章

订阅专栏

本文介绍了使用PySpark进行数据处理的几个实用技巧，包括求某列的最小最大值、普通pandas转换为pyspark DataFrame、处理VectorAssembler后的特征格式以及填充缺失值的方法。对于处理大规模数据集的开发者来说，这些技巧能够提升数据处理效率。

1. 求某一列的最小最大值

data.agg(F.min("dt"), F.max("dt")).show()

或者用data.describe(['dt']).show()

2. 普通pandas转成pyspark的pandas

spark_train = spark.createDataFrame(X_train)

3. VectorAssembler之后的features的格式

是struct<type:tinyint,size:int,indices:array<int>,values:array<double>>

很多时候不能直接操作，例如求和或者保存csv，此时需要进行转化，

如下可以转成一个vector用于求和。

首先将features转为一个string：f2。

然后对f2进行split，得到f3。再对f3求和，得到f4。

4. pyspark程序上来要填充缺失值。

今天用pyspark的iforest程序，fit的时候出错。排查了一下午，终于发现问题是由于里边有空值。

利用上面的求和，可以发现有大量的空值。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。