特征工程-数据归一化和标准化

本文介绍了数据预处理中的两种常见方法:归一化和标准化。归一化将数据缩放到固定范围,适用于需要限定输出范围的情况;标准化则通过中心化处理使数据符合标准正态分布,适合数据存在异常值的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

定义

归一化:

XiXminXmaxXminXi−XminXmax−Xmin

标准化:
XiμσXi−μσ

其中 μμσσ 代表样本的均值和标准差, XmaxXmax为最大值, XminXmin为最小值。
本质

归一化和标准化的本质是线性变换
线性变换有很多良好的性质,这些性质决定了为什么对数据进行改变后竟然不会造成“失效”,反而还能提高数据的表现

两者区别

归一化的缩放是“拍扁”统一到区间(仅由极值决定),而标准化的缩放是更加“弹性”和“动态”的,和整体样本的分布有很大的关系。

  • 归一化:缩放仅仅跟最大、最小值的差别有关。
  • 标准化:缩放和每个点都有关系,通过方差(variance)体现出来。与归一化对比,标准化中所有数据点都有贡献(通过均值和标准差造成影响)。
  • 归一化: 输出范围在0-1之间
  • 标准化:输出范围是负无穷到正无穷
应用场景

对输出结果范围有要求,用归一化
数据较为稳定,不存在极端的最大最小值,用归一化
(如果样本中具有不同量纲的指标,最好进行归一化)
数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值