一、数据归一化是什么?
数据归一化 是一种数据预处理技术,旨在将数据中不同特征的数值范围统一到一个特定的尺度,通常是 [0, 1] 或 [-1, 1] 之间。
你可以把它想象成:把一群身高(单位:米,范围1.5~2.0)和体重(单位:公斤,范围50~100)差异巨大的人,都按比例缩放到同一个标准舞台上,这样他们才能同台公平地比较和表演。
最常见的两种归一化方法是:
-
最小-最大归一化
-
公式:Xnorm=X−XminXmax−XminXnorm=Xmax−XminX−Xmin
-
作用:将原始数据线性地映射到[0, 1]区间。
-
例子:一个特征的值范围是 [100, 900],那么200会被归一化为 (200-100)/(900-100) = 0.125。
-
-
Z-Score 标准化
-
公式:Xstd=X−μσXstd=σX−μ
-
μμ 是数据的平均值
-
σσ 是数据的标准差
-
-
作用:将数据转换为均值为0,标准差为1的正态分布。它的结果没有严格的边界,大部分数据会落在[-3, 3]区间内。
-
例子:如果一个特征的均值是 500,标准差是 200,那么700会被标准化为 (700-500)/2
-

最低0.47元/天 解锁文章
1994

被折叠的 条评论
为什么被折叠?



