基本的数据预处理

最新推荐文章于 2024-06-26 11:35:37 发布

Taohongfei_huster

最新推荐文章于 2024-06-26 11:35:37 发布

阅读量264

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习 sklearn 特征工程

本文链接：https://blog.youkuaiyun.com/qq_41951186/article/details/83019688

本文详细介绍了数据预处理中的几个关键步骤：标准化包括标准差法和最大-最小值法；正则化（归一化）用于使样本单位范数为1；标签化和One Hot编码则针对非数值型特征处理，One Hot编码能有效处理非连续型数值，增强特征表示。同时，文章提到了缺失值和异常值的处理策略，如使用平均值、中值或最常见的值来插补缺失值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.标准化

1.标准差法

# 从sklearn.preprocessing导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 标准化数据，保证每个维度的特征数据方差为1，均值为0，使得预测结果不会被某些维度过大的特征值而主导
ss = StandardScaler()
# fit_transform()先拟合数据，再标准化
X_train = ss.fit_transform(X_train)
# transform()数据标准化
X_test = ss.transform(X_test)

我们在训练集上调用fit_transform()，其实找到了均值μ和方差σ^2，即我们已经找到了转换规则，我们把这个规则利用在训练集上，随后，我们可以直接调用transform（）将其运用到测试集上（甚至交叉验证集）。

使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化（也能返回数据的均值，方差）。

>>> from sklearn import preprocessing
>>> import numpy as np
>>> X = np.array([[ 1., -1.,  2.],
...               [ 2.,  0.,  0.],
...               [ 0.,  1., -1.]])
>>> X_scaled = preprocessing.scale(X)
 
>>> X_scaled                                          
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])
 
>>>#处理后数据的均值和方差
>>> X_scaled.mean(axis=0)
array([ 0.,  0.,  0.])
 
>>> X_scaled.std(axis=0)
array([ 1.,  1.,  1.])

使用sklearn.preprocessing.StandardScaler类，使用该类的好处在于可以保存训练集中的参数（均值、方差）直接使用其对象转换测试集数据。

>>> from sklearn import preprocessing
>>> import numpy as np
>>> scaler = preprocessing.StandardScaler().fit(X)
>>> scaler
StandardScaler(copy=True, with_mean=True, with_std=True)
 
>&