特征工程-特征预处理

本文介绍了特征工程中的两种重要数据预处理方法——归一化和标准化。归一化将数据映射到[0,1]区间,适用于小数据集但对异常值敏感;而标准化将数据转换为均值为0,标准差为1的分布,适合大数据集且具有较好的鲁棒性。通过示例展示了如何使用`MinMaxScaler`和`StandardScaler`进行预处理,并讨论了它们在不同场景下的适用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介:特征工程

即通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。
在这里插入图片描述

归一化、标准化

当特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征
举例:
在这里插入图片描述我们需要用到一些方法进行无量纲化,使不同规格的数据转换到同一规格之间

归一化:

通过对原始数据进行变换把数据映射到(默认[0,1])之间。但是容易受到异常点影响
我们对以下数据进行运算,在dating.txt中。保存的就是之前的约会对象数据。

对应api:

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )

    MinMaxScalar.fit_transform(X)
        X:numpy array格式的数据[n_samples,n_features]
    返回值:转换后的形状相同的array


import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def minmax_demo():
    """
    归一化演示
    :return: None
    """
    data = pd.read_csv("./data/dating.txt")
    print(data)
    # 1、实例化一个转换器类
    transfer = MinMaxScaler(feature_range=(2, 3))
    # 2、调用fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("最小值最大值归一化处理的结果:\n", data)

    return None
       milage     Liters  Consumtime  target
0     40920   8.326976    0.953952       3
1     14488   7.153469    1.673904       2
2     26052   1.441871    0.805124       1
3     75136  13.147394    0.428964       1
..      ...        ...         ...     ...
998   48111   9.134528    0.728045       3
999   43757   7.882601    1.332446       3

[1000 rows x 4 columns]
最小值最大值归一化处理的结果:
 [[ 2.44832535  2.39805139  2.56233353]
 [ 2.15873259  2.34195467  2.98724416]
 [ 2.28542943  2.06892523  2.47449629]
 ..., 
 [ 2.29115949  2.50910294  2.51079493]
 [ 2.52711097  2.43665451  2.4290048 ]
 [ 2.47940793  2.3768091   2.78571804]]

归一化鲁棒性差(易受到异常数据影响),只适合小数据

标准化:

对原始数据进行变换把数据变换到均值为0,标准差为1的范围内,这样即使有少量的异常点,也会被稀释的差不多。少量的异常点对于平均值的影响并不大,从而方差改变较小。
在这里插入图片描述

在这里插入图片描述api:

sklearn.preprocessing.StandardScaler( )

    处理之后每列来说所有数据都聚集在均值0附近标准差差为1
    StandardScaler.fit_transform(X)
        X:numpy array格式的数据[n_samples,n_features]
    返回值:转换后的形状相同的array

import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand_demo():
    """
    标准化演示
    :return: None
    """
    data = pd.read_csv("dating.txt")
    print(data)
    # 1、实例化一个转换器类
    transfer = StandardScaler()
    # 2、调用fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("标准化的结果:\n", data)
    print("每一列特征的平均值:\n", transfer.mean_)
    print("每一列特征的方差:\n", transfer.var_)

    return None
     milage     Liters  Consumtime  target
0     40920   8.326976    0.953952       3
1     14488   7.153469    1.673904       2
2     26052   1.441871    0.805124       1
..      ...        ...         ...     ...
997   26575  10.650102    0.866627       3
998   48111   9.134528    0.728045       3
999   43757   7.882601    1.332446       3

[1000 rows x 4 columns]
标准化的结果
 [[ 0.33193158  0.41660188  0.24523407]
 [-0.87247784  0.13992897  1.69385734]
 [-0.34554872 -1.20667094 -0.05422437]
 ..., 
 [-0.32171752  0.96431572  0.06952649]
 [ 0.65959911  0.60699509 -0.20931587]
 [ 0.46120328  0.31183342  1.00680598]]
每一列特征的平均值:
 [  3.36354210e+04   6.55996083e+00   8.32072997e-01]
每一列特征的方差:
 [  4.81628039e+08   1.79902874e+01   2.46999554e-01]

b标准化在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值