什么是Z-score标准化

要深入理解数值型特征处理中的标准化(以Z-score为例),需要从核心定义、计算逻辑、适用场景、优缺点及与归一化的区别等维度展开,以下是系统梳理:

一、核心概念:什么是Z-score标准化?

Z-score标准化(也称标准差标准化)是数值型特征标准化的核心方法之一,其核心目标是将原始数据转换为均值(μ)= 0、标准差(σ)= 1 的标准正态分布形式。
经过处理后,每个特征的所有样本值都会围绕“0”波动,且波动幅度由原始数据的离散程度(标准差)决定,能消除原始数据“量纲”和“数值范围”的影响(例如:身高“厘米”与体重“千克”、收入“万元”与年龄“岁”的单位差异)。

二、具体计算步骤

Z-score标准化的公式非常明确,对原始数据中的每个样本值 ( x_i ),处理后的标准值 ( z_i ) 计算如下:
[ z_i = \frac{x_i - \mu}{\sigma} ]

其中:

  • ( x_i ):某特征下的第 ( i ) 个原始样本值;
  • ( \mu ):该特征所有样本值的均值(计算方式:所有样本值求和后除以样本总数 ( n ));
  • ( \sigma ):该特征所有样本值的标准差(计算方式:先求方差——每个样本值与均值差的平方的平均值,再开平方)。
示例:用具体数据理解计算

假设某特征(如“年龄”)的原始样本为:[20, 22, 25, 28, 30],计算过程如下:

  1. 求均值 ( \mu ):( (20+22+25+28+30)/5 = 25 );
  2. 求标准差 ( \sigma ):
    方差 = ( [(20-25)^2 + (22-25)^2 + (25-25)^2 + (28-25)^2 + (30-25)^2]/5 = (25+9+0+9+25)/5 = 13.6 )
    标准差 = ( \sqrt{13.6} \approx 3.688 );
  3. 计算每个样本的Z-score:
    • 20 → ( (20-25)/3.688 ≈ -1.356 )
    • 22 → ( (22-25)/3.688 ≈ -0.813 )
    • 25 → ( (25-25)/3.688 = 0 )
    • 28 → ( (28-25)/3.688 ≈ 0.813 )
    • 30 → ( (30-25)/3.688 ≈ 1.356 )

最终标准化后的数据为:[-1.356, -0.813, 0,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Liquad Li 李庆军

您的鼓励是我创作的动力哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值