missing data handling
思路图:
将训练集training set 的label去掉后,复制,然后找到NaN的位置:
sample_incomplete_rows = housing[housing.isnull().any(axis=1)]
1.第一种:
subset 表示含有后面字样的一列,不写这个就要具体把所有的features 都写全,才能进行操作。
dropna( subset = [ ’ '] )
sample_incomplete_rows.dropna(subset=["total_bedrooms"]) # option 1
2.第二种:
dropna( ’ ’ , axis = 1)
sample_incomplete_rows.drop("total_bedrooms", axis=1) # option 2
3.第三种:
fillna(strategy , inplace = True )
median = housing["total_bedrooms"].median()
sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3
sample_incomplete_rows
综合以上,sklearn 有个专门的class: SimpleImputer.
sklearn.impute.SimpleImputer
from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
#创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")
记得去除非数值的列,统计学计算只能进行数值计算。
例如:housing表格中,ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。
housing_num = housing.drop('ocean_proximity', axis=1)
# 拟合数据
imputer.fit(housing_num)
得到:
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)
# 数据转换
X = imputer.transform(housing_num)
然后转换成dataframe 结构(pandas独有)
housing_tr = pd.DataFrame(X, columns=housing_num.columns,
index=housing_num.index)
housing_tr.head()
ps: imputer.statistics_ 可以用来查看数据

博客主要介绍了使用Python处理数据缺失值的方法。包括在训练集中找到NaN位置后,通过dropna函数的不同用法处理缺失值,还可使用fillna函数。此外,提到sklearn的SimpleImputer类,使用时需去除非数值列,最后可将结果转换成dataframe结构。
399

被折叠的 条评论
为什么被折叠?



