Python数据预处理：彻底理解标准化和归一化

最新推荐文章于 2024-05-27 23:08:32 发布

原创

最新推荐文章于 2024-05-27 23:08:32 发布 · 972 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #机器学习 #开发语言

Python数据预处理：彻底理解标准化和归一化

数据预处理

数据中不同特征的量纲可能不一致，数值间的差别可能很大，不进行处理可能会影响到数据分析的结果，因此，需要对数据按照一定比例进行缩放，使之落在一个特定的区域，便于进行综合分析。

常用的方法有两种：

最大 - 最小规范化：对原始数据进行线性变换，将数据映射到[0,1]区间

Z-Score标准化：将原始数据映射到均值为0、标准差为1的分布上

为什么要标准化/归一化？

提升模型精度：标准化/归一化后，不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。

加速模型收敛：标准化/归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

如下图所示：

哪些机器学习算法需要标准化和归一化

1）需要使用梯度下降和计算距离的模型要做归一化，因为不做归一化会使收敛的路径程z字型下降，导致收敛路径太慢，而且不容易找到最优解，归一化之后加快了梯度下降求最优解的速度，并有可能提高精度。比如说线性回归、逻辑回归、adaboost、xgboost、GBDT、SVM、NeuralNetwork等。需要计算距离的模型需要做归一化，比如说KNN、KMeans等。

2）概率模型、树形结构模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、随机森林。

彻底理解标准化和归一化

示例数据集包含一个自变量（已购买）和三个因变量（国家，年龄和薪水），可以看出用薪水范围比年龄宽的多，如果直接将数据用于机器学习模型（比如KNN、KMe

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序猿小乙 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。