标准化与归一化的差异

原创已于 2022-06-23 19:56:05 修改 · 2.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#归一化 #标准化

于 2022-04-17 15:45:35 首次发布

R语言专栏收录该内容

69 篇文章

订阅专栏

本文详细介绍了统计学中用于数据预处理的两种重要方法——标准化和归一化，包括各自的计算公式及应用场景。标准化将数据转化为均值为0，标准差为1的分布，适合于衡量偏离均值的程度；归一化则将数据缩放到0到1之间，有助于消除不同单位或尺度的影响。通过R语言示例展示了如何实现这两种方法，并指出在选择使用哪种方法时应考虑应用场景和数据特性。

本文介绍统计学中标准化与归一化方法，包括计算公式和应用场景，以及两者的差异。

两者计算公式

标准化(Standardization) 和归一化(normalization) 是数据缩放的两种方法.

标准化缩放数据集为均值为0，标准化差为1，使用下面的公式：

x $_{new}$ = (x $_{i}$ – μ) / σ

x $_{i}$ 是数据集中第i个值
μ 为样本均值
σ 样本标准差

归一化缩放数据集，让每个元素落在0~1之间，使用下面公式：

x $_{new}$ = (x $_{i}$ – x $_{min}$ ) / (x $_{max}$ – x $_{min}$ )

x $_{i}$ 是数据集中第i个值
x $_{min}$ 为数据集最小值
x $_{min}$ 为数据集最大值

R 计算示例

首先定义数据集data, 然后利用内置的scale函数进行标准化，并通过mean 和 sd 函数进行验证。
scale返回矩阵，通过as.vector转为向量。并自定义norm函数进行归一化计算。

data <- c(13, 16, 19, 22, 23, 38, 47, 56, 58, 63, 65, 70, 71)

sd_data <- as.vector(scale(data))
sd_data

mean(sd_data)
# 0
sd(sd_data)
# 1

norm <- function(data){
  mi <- min(data)
  ma <- max(data)
  
  (data - mi) / (ma - mi)
}


data_norm <- norm(data)
data_norm