一、缺失值的处理、数据标准化、EDA
使用pandas_Profiling实现对数据的EDA。
看数据的统计和数据的分布
统计分析,相关性图,Pearson系数(单变量)、Spearman系数(多变量)
- 缺失值的处理:
(1)填充(以目标为导向,通过提交反馈选择用什么填充)
train.isnull() ==> 返回dataframe (train.isnull().sum() ==> 统计空值数量)
train.fillna(train[‘column_name’].mean()) # 用均值填充空值
(2)不处理
- 数据的标准化问题:
from sklearn.preprocessing import StandarScaler, Normalizer, MinMaxScler, LableBinarizer, LabelEncoder, OneHotEncoder
# StandarScaler 标准化
# Normalizer 正规化
# MinMaxScler 最小最大值化
# LableBinarizer 二值化
# LabelEncoder 标签化
pd.unique(train['column_name']) ==> array(['value1','value2',...], dtype=object)
# OneHotEncoder 独热编码
pd.get_dummies(train['column_name']) # pandas直接实现独热编码
- 标准化和归一化的区别:
归一化:将整体数据缩放到[0,1]范围;把有量纲表达式转为无量纲表达式。
标准化:将数据整体按比例缩放,使之落入一个小的特定区间。
-
异常值的处理:
(1)采用箱型图来进行数据可视化
(2)采用散点图
二、环境配置问题
- conda 虚拟环境
- pip 本地环境
三、排名提升问题


本文探讨了数据预处理的关键步骤,包括缺失值处理、数据标准化、异常值处理及环境配置。介绍了使用pandas_profiling进行EDA的方法,讨论了归一化与标准化的区别,并提供了处理缺失值和异常值的策略。
428

被折叠的 条评论
为什么被折叠?



