归一化与标准化的区别与实现方法

原创已于 2023-10-29 15:47:17 修改 · 383 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2023-10-11 18:19:15 首次发布

Python 同时被 2 个专栏收录

135 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

本文介绍了归一化和标准化两种数据预处理方法，对比了它们的原理、代码实现以及在异常值处理上的差异。强调在实际应用中，标准化更适合处理正态分布的数据，且需注意训练集和测试集独立标准化的重要性。

文章目录

一、公式
二、代码
三、区别
四、结论

一、公式

归一化
$\above{1pt} max-min}$
$X^{''} = X^{'} * (ma - mi) + mi$
标准化
$\above{1pt} std}$

ps：

max：特征最大值
min：特征最小值
ma：特征归一化后的最大值
mi：特征归一化后的最小值
mean：特征均值
std：特征标准差

二、代码

归一化

from sklearn.preprocessing import MinMaxScaler
import pandas as pd


if __name__ == '__main__':

    # 初始化数据
    columns = ['点赞', '投币', '收藏']
    data = [
        [1, 5, 12],
        [13, 2, 5],
        [9, 9, 6],
        [2, 5, 0]
    ]
    data = pd.DataFrame(data=data, columns=columns)
    print(data)
    #    点赞  投币  收藏
    # 0   1   5  12
    # 1  13   2   5
    # 2   9   9   6
    # 3   2   5   0

    # 定义缩放范围
    min_scaler, max_scaler = 0, 1
    # 初始化缩放器
    scaler = MinMaxScaler(feature_range=(min_scaler, max_scaler))
    # 执行归一化
    data_minmax = scaler.fit_transform(data[columns])
    print(data_minmax)
    # [[0.         0.42857143 1.        ]
    #  [1.         0.         0.41666667]
    #  [0.66666667 1.         0.5       ]
    #  [0.08333333 0.42857143 0.        ]]

标准化

from sklearn.preprocessing import StandardScaler
import pandas as pd


if __name__ == '__main__':

    # 初始化数据
    columns = ['点赞', '投币', '收藏']
    data = [
        [1, 5, 12],
        [13, 2, 5],
        [9, 9, 6],
        [2, 5, 0]
    ]
    data = pd.DataFrame(data=data, columns=columns)
    print(data)
    #    点赞  投币  收藏
    # 0   1   5  12
    # 1  13   2   5
    # 2   9   9   6
    # 3   2   5   0

    scaler = StandardScaler(with_mean=0, with_std=1)
    # 执行标准化【均值为0标准差为1】
    data_standard = scaler.fit_transform(data[columns])
    print(data_standard )
    # [[-1.05662467 -0.10050378  1.46552595]
    #  [ 1.35851743 -1.30654916 -0.17586311]
    #  [ 0.55347007  1.50755672  0.05862104]
    #  [-0.85536283 -0.10050378 -1.34828388]]

三、区别

归一化与标准化都是对数据的特征进行缩放，二者的区别是：

标准化受异常样本的影响小
样本中如果出现异常值的话，该值可能会非常大或非常小，归一化的分母是最大值与最小值的差，这很可能会导致正常样本的值都挤在一个跟小的范围内，从而影响预测结果，而标准化的分母是样本标准差，受异常点的影响较小。
符合统计学假设
自然界中的数值特征多是符合正态分布的，标准化基于这个隐含假设，将这个正态分布调整为均值为0，方差为1的标准正态分布。