标准化、归一化、去中心化辨析


标准化(Standardization)、归一化(Normalization)和去中心化(Centering)是数据预处理中常用的三种不同的缩放技术,它们都旨在调整数据的尺度,以便于进行后续的分析和机器学习任务。虽然这些术语有时被交替使用,但它们在数学上有着不同的含义和应用场景。

标准化(Standardization)

标准化是将数据转换为具有特定均值和标准差的过程。通常,标准化会使得数据的均值变为0,标准差变为1。这是通过以下公式完成的(Z-score规范化):

z = ( x − μ ) σ z = \frac{(x - \mu)}{\sigma} z=σ(xμ)

其中,$\ x $ 是原始数据点,$ \mu $ 是数据集的均值,$ \sigma $ 是数据集的标准差,$ z $ 是标准化后的值。

标准化的主要目的是消除不同量纲和尺度的影响,使得数据在进行计算和比较时更加公平。它在许多机器学习算法中非常有用,尤其是那些基于距离的算法,如K-近邻(KNN)和主成分分析(PCA)。

归一化(Normalization)

归一化通常指的是将数据缩放到一个固定的范围,最常见的是[0, 1]。归一化的公式如下:

x norm = x − min ( x ) max ( x ) − min ( x ) x_{\text{norm}} = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)} xnorm=max(x)min(x)xmin(x)

其中,$\ x $ 是原始数据点,min(x)max(x)分别是数据集中的最小值和最大值,$ x_{\text{norm}} $ 是归一化后的值。

归一化对于需要数据在固定范围内进行计算的算法非常有用,如梯度下降和神经网络。它也常用于数据可视化,使得不同的数据点可以在同一尺度下比较。

去中心化(Centering)

中心化是将数据的均值变为0的过程,但不改变数据的标准差。这可以通过以下公式完成:

x centered = x − μ x_{\text{centered}} = x - \mu xcentered=xμ

其中,   x \ x  x 是原始数据点 ,$ \mu$ 是数据集的均值,$ x_{\text{centered}} $ 是去中心化后的值。

去中心化有助于突出数据中的异常值和波动,因为它保留了原始数据的方差。它在某些统计分析和时间序列分析中非常有用,尤其是在计算偏差或平均偏差时。

总结

  • 标准化:调整数据的均值和标准差,使其具有均值为0和标准差为1的特性。
  • 归一化:将数据缩放到一个固定范围,通常是[0, 1]。
  • 去中心化:仅将数据的均值调整为0,不改变其标准差。

在实际应用中,选择哪种方法取决于数据的特性和后续分析的需求。有时,这些方法可以组合使用,以达到最佳的预处理效果。例如,可以先进行去中心化,然后进行标准化或归一化。

参考文献

资料一
资料二

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值