要深入理解数值型特征处理中的标准化(以Z-score为例),需要从核心定义、计算逻辑、适用场景、优缺点及与归一化的区别等维度展开,以下是系统梳理:
一、核心概念:什么是Z-score标准化?
Z-score标准化(也称标准差标准化)是数值型特征标准化的核心方法之一,其核心目标是将原始数据转换为均值(μ)= 0、标准差(σ)= 1 的标准正态分布形式。
经过处理后,每个特征的所有样本值都会围绕“0”波动,且波动幅度由原始数据的离散程度(标准差)决定,能消除原始数据“量纲”和“数值范围”的影响(例如:身高“厘米”与体重“千克”、收入“万元”与年龄“岁”的单位差异)。
二、具体计算步骤
Z-score标准化的公式非常明确,对原始数据中的每个样本值 ( x_i ),处理后的标准值 ( z_i ) 计算如下:
[ z_i = \frac{x_i - \mu}{\sigma} ]
其中:
- ( x_i ):某特征下的第 ( i ) 个原始样本值;
- ( \mu ):该特征所有样本值的均值(计算方式:所有样本值求和后除以样本总数 ( n ));
- ( \sigma ):该特征所有样本值的标准差(计算方式:先求方差——每个样本值与均值差的平方的平均值,再开平方)。
示例:用具体数据理解计算
假设某特征(如“年龄”)的原始样本为:[20, 22, 25, 28, 30],计算过程如下:
- 求均值 ( \mu ):( (20+22+25+28+30)/5 = 25 );
- 求标准差 ( \sigma ):
方差 = ( [(20-25)^2 + (22-25)^2 + (25-25)^2 + (28-25)^2 + (30-25)^2]/5 = (25+9+0+9+25)/5 = 13.6 )
标准差 = ( \sqrt{13.6} \approx 3.688 ); - 计算每个样本的Z-score:
- 20 → ( (20-25)/3.688 ≈ -1.356 )
- 22 → ( (22-25)/3.688 ≈ -0.813 )
- 25 → ( (25-25)/3.688 = 0 )
- 28 → ( (28-25)/3.688 ≈ 0.813 )
- 30 → ( (30-25)/3.688 ≈ 1.356 )
最终标准化后的数据为:[-1.356, -0.813, 0,

最低0.47元/天 解锁文章
431

被折叠的 条评论
为什么被折叠?



