数据预处理之数据无量纲化(标准化/归一化)

最新推荐文章于 2025-10-07 17:49:32 发布

原创

最新推荐文章于 2025-10-07 17:49:32 发布 · 置顶 · 9.2w 阅读

·

44

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据预处理 #数据无量纲化 #数据归一化 #数据标准化 #数据挖掘

在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如1cm 与 0.1kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结，试图指出他们的适用场景，并给出在Python中的相应调用方式。正文中每列代表一个属性/特征，每行表示一个/条样本。

1. min-max归一化

该方法是对原始数据进行线性变换，将其映射到[0,1]之间,该方法也被称为离差标准化(但是请注意，网上更多人喜欢把z-score称为标准化方法，把min-max称为归一化方法，然后在此基础上，强行给标准化(z-score)与归一化(min-max)划条界线，以显示二者之间的相异性。对！二者之间确实有很大的不同，这个我们后面会有介绍，但是这两个方法说到底还都是用来去除量纲的，都是无量纲化技术中的一员而已，所以，请不要纠结标准化与归一化这两个概念了)。

上式中，min是样本的最小值，max是样本的最大值。由于最大值与最小值可能是动态变化的，同时也非常容易受噪声(异常点、离群点)影响，因此一般适合小数据的场景。此外，该方法还有两点好处：

1) 如果某属性/特征的方差很小，如身高：

最低0.47元/天解锁文章

4 条评论

Simons_Xue 2020.12.23
z-score标准化写错了，应该是zero-mean standardization.

qq_29417091 2020.03.11
您好，请问lasso或者elasticNet这种方法选用min-max可以吗？

weixin_45884291 2019.11.19
111

Tony Einstein 2019.08.19
其实、好像这些知识都在统计学和最优化理论里面、真的很赞

猫和大海@—@ 2018.11.23
数据的无量纲化、标准化、归一化并不是一个概念，公式都不一样

wykby 2018.10.28
您好，我想问一下。如在训练集某个特征多数分布在-1到0，测试集多数分布在0到1，这类问题该怎么处理

weixin_43348338 2018.10.07
您好，如果在熵值法中用z-score标准处理数据，求和的时候值为0，接下来就不能计算了，这个不是很懂，能解释一下吗
- 小方哥哥回复weixin_43348338 2018.10.12
  [reply]weixin_43348338[/reply] 能具体点吗，求和指的是什么？

评论 8

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。