数据归一化(更广义地称为 特征缩放)有多种方法,每种方法都有其适用的场景和优缺点。以下是几种最常见和重要的方法:
我将它们分为两大类别:归一化 和 标准化。
一、 归一化
这类方法通常将数据缩放到一个固定的范围,最常见的是 [0, 1]。
1. 最小-最大归一化
这是最简单、直观的方法。
-
公式:
Xscaled=X−XminXmax−XminXscaled=Xmax−XminX−Xmin -
作用:将原始数据线性地映射到 [0, 1] 区间。
-
优点:简单易懂,计算速度快,能保留原始数据的分布形状。
-
缺点:对异常值非常敏感。如果数据中存在极端大或极端小的异常值,XmaxXmax 或 XminXmin 会被拉得很开,导致大部分正常数据被压缩在一个很小的范围内,例如都集中在0.4-0.6之间,从而失去区分度。
-
适用场景:数据分布范围比较确定,且没有极端异常值。适用于需要将数据限制在特定范围的算法,如神经网络。
2. 最大绝对值缩放
-
公式:
Xscaled=X∣Xmax∣Xscaled=∣Xmax∣X -
作用:将每个特征缩放到 [-1, 1] 的范围内。它通过除以每个特征的最大绝对值来实现。
-
优点:不会移动数据的中心(即不会改变

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



