python机器学习基础6之处理缺失value数据（cook book）

最新推荐文章于 2025-05-15 22:10:53 发布

原创最新推荐文章于 2025-05-15 22:10:53 发布 · 744 阅读

CC 4.0 BY-SA版权

文章标签：

97 篇文章

订阅专栏

60 篇文章

订阅专栏

6 篇文章

订阅专栏

博客主要介绍了使用Python处理数据缺失值的方法。包括在训练集中找到NaN位置后，通过dropna函数的不同用法处理缺失值，还可使用fillna函数。此外，提到sklearn的SimpleImputer类，使用时需去除非数值列，最后可将结果转换成dataframe结构。

部署运行你感兴趣的模型镜像

missing data handling

思路图：

将训练集training set 的label去掉后，复制，然后找到NaN的位置：

sample_incomplete_rows = housing[housing.isnull().any(axis=1)]

1.第一种：
subset 表示含有后面字样的一列，不写这个就要具体把所有的features 都写全，才能进行操作。

dropna( subset = [ ’ '] )

sample_incomplete_rows.dropna(subset=["total_bedrooms"])    # option 1

2.第二种:

dropna( ’ ’ , axis = 1)

sample_incomplete_rows.drop("total_bedrooms", axis=1)       # option 2

3.第三种：
fillna(strategy , inplace = True )

median = housing["total_bedrooms"].median()

sample_incomplete_rows["total_bedrooms"].fillna(median, inplace=True) # option 3

sample_incomplete_rows

综合以上，sklearn 有个专门的class: SimpleImputer.

sklearn.impute.SimpleImputer

 from sklearn.impute import SimpleImputer # Scikit-Learn 0.20+
 #创建对象 imputer, 策略为用中位数填补NaN
imputer = SimpleImputer(strategy="median")

记得去除非数值的列，统计学计算只能进行数值计算。
例如：housing表格中，ocean_proximity是非数值类型数据, 所以进行SimpleImputer的时候要drop掉这一列。

housing_num = housing.drop('ocean_proximity', axis=1)

# 拟合数据
imputer.fit(housing_num)

得到：
SimpleImputer(copy=True, fill_value=None, missing_values=nan,
strategy=‘median’, verbose=0)

# 数据转换
X = imputer.transform(housing_num)

然后转换成dataframe 结构（pandas独有）

housing_tr = pd.DataFrame(X, columns=housing_num.columns,
                          index=housing_num.index)
housing_tr.head()

ps: imputer.statistics_ 可以用来查看数据

您可能感兴趣的与本文相关的镜像

Python3.9

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本