机器学习算法基础(一)-----特征预处理

一. 特征预处理

通过teddy的统计方法(数学方法)将数据转换成算法要求的数据

1. 特征处理的方法

数值型数据: 归一化,标准化,缺失值

  1. 归一化:
    在这里插入图片描述
    注意:在特定场景下最大值最小值是变化的,另外最大值与最小值非常容易受异常点影响,所以这种方法robust较差,只适合传统精确小数据场景

  2. 标准化
    在这里插入图片描述
    如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从而方差改变较小
    在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景

  3. 缺失值
    删除: 如果每列或者行数据缺失值达到一定的比例,建议放弃整行或者整列
    插补:可以通过缺失值每行或者每列的平均值、中位数来填充

类别性数据: one-hot编码
事件类型:事件的切分

2. sklearn特征处理API

  1. sklearn归一化API:sklearn.preprocessing.MinMaxScaler
    在这里插入图片描述
from sklearn.preprocessing import MinMaxScaler

def mm():
    '''归一化处理'''
    mm = MinMaxScaler()
    data = mm.fit_transform([[90,2,10,40],
[60,4,15,45],
[75,3,13,46]]
)
    print(data)

    return None

if __name__=='__main__':
    mm()
  1. sklearn 特征化API: sklearn.preprocessing.StandardScaler
    在这里插入图片描述
from sklearn.preprocessing import StandardScaler

def ss():
    '''标准化处理'''
    mm = StandardScaler()
    data = mm.fit_transform([[ 1., -1., 3.],
[ 2., 4., 2.],
[ 4., 6., -1.]]

)
    print(data)

    return None

if __name__=='__main__':
    ss()
  1. sklearn缺失值API:sklearn.preprocessing.Imputer
    在这里插入图片描述
from sklearn.preprocessing import Imputer
import numpy as np

def im():
    '''缺失值处理'''
    mm = Imputer()
    data = mm.fit_transform([[1, 2],
[np.nan, 3],
[7, 6]]
)
    print(data)

    return None

if __name__=='__main__':
    im()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值