标准化、归一化等的适用范围

最新推荐文章于 2024-10-29 10:02:58 发布

原创最新推荐文章于 2024-10-29 10:02:58 发布 · 3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python

机器学习专栏收录该内容

18 篇文章

订阅专栏

本文介绍了特征处理中的标准化和归一化，包括它们的计算方法、适用范围以及不同情况下的选择。标准化适合数据存在异常值和噪音的情况，而归一化适用于对输出范围有要求的场景。在某些模型如SVM、KNN和神经网络中，标准化通常是首选。文章还提到，在数据集规模变化时，标准化的稳定性优于归一化。

部署运行你感兴趣的模型镜像

特征处理方法总览：

在这里插入图片描述

标准化和归一化介绍：

（1）标准化
　　标准化需要计算特征的均值和标准差，公式表达为：
在这里插入图片描述
　　使用preproccessing库的StandardScaler类对数据进行标准化的代码如下

from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
iris=load_iris()
#标准化，返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)

(2)归一化
在这里插入图片描述
使用preproccessing库的Normalizer类对数据进行归一化的代码如下：

from sklearn.preprocessing import Normalizer
#归一化，返回值为归一化后的数据
Normalizer().fit_transform(iris.data)

区间缩放法其实是归一化的一种：
区间缩放法的思路有多种，常见的一种为利用两个最值进行缩放，公式表达为：
在这里插入图片描述
使用preproccessing库的MinMaxScaler类对数据进行区间缩放的代码如下：

from sklearn.preprocessing import MinMaxScaler
#区间缩放，返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)

标准化和归一化适用范围

几条说明：

（1）如果对输出结果范围有要求，用归一化。
（2）如果数据较为稳定，不存在极端的最大最小值，用归一化。
（3）如果数据存在异常值和较多噪音，用标准化，可以间接通过中心化避免异常值和极端值的影响。
（4）SVM、KNN（K近邻）、神经网络、PCA等模型必须先标准化、归一化
优先使用标准化。对于输出有要求时再尝试别的方法，如归一化或者更加复杂的方法。很多方法都可以将输出范围调整到[0, 1]，如果我们对于数据的分布有假设的话，更加有效的方法是使用相对应的概率密度函数来转换。