python机器学习基础6之处理缺失value数据(cook book)

博客主要介绍了使用Python处理数据缺失值的方法。包括在训练集中找到NaN位置后,通过dropna函数的不同用法处理缺失值,还可使用fillna函数。此外,提到sklearn的SimpleImputer类,使用时需去除非数值列,最后可将结果转换成dataframe结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

missing data handling

思路图:

缺失数据处理
1.删除该数据
2.删除该列数据
填充预测的数据
Imputer

将训练集training set 的label去掉后,复制,然后找到NaN的位置:

sample_incomplete_rows = housing[housing.isnull().any(axis=1)]

1.第一种:
subset 表示含有后面字样的一列,不写这个就要具体把所有的features 都写全,才能进行操作。

dropna( subset = [ ’ '] )

sample_incomplete_rows.dropna(subset=["total_bedrooms"])    # option 1

2.第二种:

dropna( ’ ’ , axis = 1)

sample_incomplete_rows.drop("total_bedrooms", axis=1)       # option 2

3.第三种:
fillna(strategy , inplace = True )

median = housing["total_bedrooms"].median()

sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3

sample_incomplete_rows

综合以上,sklearn 有个专门的class: SimpleImputer.

sklearn.impute.SimpleImputer

 from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
 #创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")

记得去除非数值的列,统计学计算只能进行数值计算。
例如:housing表格中,ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。

housing_num = housing.drop('ocean_proximity', axis=1)
# 拟合数据
imputer.fit(housing_num)

得到:
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)

# 数据转换
X = imputer.transform(housing_num)

然后转换成dataframe 结构(pandas独有)

housing_tr = pd.DataFrame(X, columns=housing_num.columns,
                          index=housing_num.index)
housing_tr.head()

ps: imputer.statistics_ 可以用来查看数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万物琴弦光锥之外

给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值