机器学习系列文章——特征的处理与选择(归一化、标准化、降维、PCA)

本文详细介绍了机器学习中的特征处理,包括归一化、标准化以及缺失值处理,并探讨了特征选择的重要性,如Filter方法的VarianceThreshold和PCA降维技术,旨在提升模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、特征处理

特征处理是通过特定的统计方法,将数据转化成算法要求的数据。其API为sklearn.preprocessing。先来看一组数据:
在这里插入图片描述
第一组中的特征1 相比于特征2而言大了几十倍,在正常处理时这些点即可视为异常点,影响统计结果分析。采用特征处理后转变为右侧的数据,可以更加方便的处理而不会产生异常值。
常见的处理方法如下:

数据类型 处理方法
数值型数据 归一化、标准化、缺失值
类别型数据 one hot编码
时间型数据 时间的切分

( 一)归一化

归一化是通过对原始数据进行变换把数据映射到一定范围(默认0-1)之间。其公式为:
在这里插入图片描述
归一化实例:
在这里插入图片描述

# 导入特征处理api及其子库
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
# 定义一个归一化处理函数
def mm(data):
    """归一化处理"""
    # 实例化mm
    mm=MinMaxScaler(feature_range=(2,3))
    # 调用fit_transform来处理数据
    data=mm.fit_transform(data)
    print("归一化处理后的数据为:")
    print(data)
    return None

data=[[90, 2, 10, 40], [60, 4, 15, 45
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值