pyspark处理数据技巧

本文介绍了使用PySpark进行数据处理的几个实用技巧,包括求某列的最小最大值、普通pandas转换为pyspark DataFrame、处理VectorAssembler后的特征格式以及填充缺失值的方法。对于处理大规模数据集的开发者来说,这些技巧能够提升数据处理效率。

1. 求某一列的最小最大值

data.agg(F.min("dt"), F.max("dt")).show()

或者用data.describe(['dt']).show()


2. 普通pandas转成pyspark的pandas

spark_train = spark.createDataFrame(X_train)

 

3. VectorAssembler之后的features的格式

是struct<type:tinyint,size:int,indices:array<int>,values:array<double>>

很多时候不能直接操作,例如求和或者保存csv,此时需要进行转化,

如下可以转成一个vector用于求和。

首先将features转为一个string:f2。

然后对f2进行split,得到f3。再对f3求和,得到f4。

4. pyspark程序上来要填充缺失值。

今天用pyspark的iforest程序,fit的时候出错。排查了一下午,终于发现问题是由于里边有空值。

利用上面的求和,可以发现有大量的空值。

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值