经过上一篇文章 介绍过,数据的整体情况,我们可以是用pyspark 进行特征工程相关的开发。 为此,我们可以进行两方面的封装:
- spark_session 的生成与获取
- 文件加载
进行封装之后,下面我们来探索,如何进行 数据清洗与特诊工程
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
data_df.describe().toPandas()
下面结果是 EDA 后 的一些统计结果
|
summary |
index |
SeriousDlqin2yrs |
RevolvingUti |