机器学习|特征缩放

特征缩放,也称归一化,是将数据调整到相似尺度上的过程,常用于机器学习以提高算法性能和收敛速度。本文介绍了最小-最大缩放、标准化、稳健缩放、L2和L1规范化以及Box-Cox和Yeo-Johnson变换等方法,针对不同数据特性选择合适的缩放技术能有效避免数值不稳定性,提升模型解释性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关注公众号订阅更多
在这里插入图片描述
更多原文查看

什么是特征缩放

特征缩放又称归一化,是机器学习中的一种技术,涉及调整数值数据的量度,使所有数据点在相似的尺度上。例如:身高、体重、年龄、收入等个人特征数据,每个维度的区间不一样,为保证所有维度的特征数据尺度一样,我们就需要对原始数据做特征缩放,将身高、体重、年龄、收入都转化为区间[0,1]之间的数据。

为什么要做特征缩放

  • 收敛速度:梯度下降等迭代方法在各特征尺度一致时会更快地收敛。
  • 避免数值不稳定性:在某些算法中,如果特征的尺度差异很大,可能会导致数值计算问题。
  • 更好的模型解释性:当所有特征都在同一个尺度上,它们的权重可以更容易地相互比较。

目的

  • 使数据均匀:数据缩放通过将数据转换到新的尺度上,使不同特征间的数值大小差异减小。
  • 提高算法性能:缩放可以加快梯度下降的收敛速度,并提高算法(如支持向量机和K近邻算法)的性能。

特征缩放方法

  1. 最小-最大缩放 (Min-Max Scaling)

    • 公式: X n o r m = X − X m i n X m a x − X m i n X_{norm} =\frac {X - X_{min}} {X_{max} - X_{min}} Xnorm=XmaxXminXXmin
    • 描述: 将数据缩放到[0,1]范围内的技术。
    • 场景: 当数据分布不是高度偏斜,并且不包含极端值时。
  2. 标准化 (Standardization)

    • 公式: X s t a n d a r d = ( X − μ ) σ X_{standard} =\frac {(X - μ)} σ Xstandard=σ(Xμ)
    • 描述: 通过使数据的平均值为0,标准差为1来缩放数据。
    • 场景:当算法需要数据的标准差为1,且偏差很小时。
  3. 稳健缩放 (Robust Scaling)

    • 公式: X r o b u s t = X − Q 1 Q 3 − Q 1 X_{robust} =\frac {X - Q1} {Q3 - Q1} X
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值