【ML】什么是数据标准化和归一化?应用场景是什么?

最近在为找工作备战,看了很多博客,总结机器学习中一些基础的知识。
什么是数据的标准化和归一化?在优快云和知乎上有很多大佬做出了回答,看了有的人的回答,感觉会把自己气晕,完全是浪费时间并且误人子弟。

----------------------------------分割线,上述总结于2019.5.22,由于那个时候自己在找工作,总结的很多知识都写在了word中,没有及时上传到优快云。今天,弥补一下遗憾,打开草稿箱,画一个句号----------------------------------------

以下内容input于2020.12.21,时间过得很快,转眼间已经毕业了半年了,在算法这个坑了,摸爬滚打,学到了很多的在学校没有学到的知识,也怪自己没有利用好研究生这三年时光,深深体会到了罪恶感,让社会重新对我进行锤炼。有时候,有太多的话想说,可是,当准备说的时候,又不知从何说起。千言万语,浓缩成一句话,夯实基础,脚踏实地,才能仰望星空。
一、前言

记得以前查了很长时间的资料,为了搞懂归一化和标准化之间的区别。网上一大堆资料,各有各的回答,而且回答都解释的不太清楚(毕竟生产水的少,而大自然的搬运工太多)。

最严重,最主要额问题是“标准化”和“归一化”这两个词被长期混用,并得到了广大网友的传播!!!

实际上,“标准化”和“归一化”还是有很大区别的。

标准化和归一化都属于特征缩放[Feature scaling]方法。

常用的特征缩放方法:

  1. Rescaling(min-max Normalization,有时简称Normalization,很坑)【 缩放到[0,1] 】
    在这里插入图片描述

  2. Mean Normalization 【 缩放到[-1,1] 】
    在这里插入图片描述

  3. Standardization (Z-Score Normalization) 【σ:标准差,范围:实数集】
    在这里插入图片描述

  4. Scaling to unit length 【 缩放到:单位长度 】
    在这里插入图片描述

通常将第一种称为“归一化”,第三种称为“标准化”。下面以第一种和第三种进行概括

二、归一化和标准化比较

2.1. 什么是归一化?
归一化是利用特征的最大值和最小值,将特征缩放到[0,1]区间,对于每一列的特征使用max - min函数进行缩放。

2.2. 为什么要做归一化?
消除量纲【消除某些特征的单位】,加快收敛,提高精度。

不同特征往往具有不同的量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于[0,1]之间的小数,适合进行综合对比评价。

2.3. 归一化的方法有哪些?
2.3.1. 线性归一化
在这里插入图片描述
2.3.2. 非线性归一化
经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线。【这部分还需要深入】

2.4. 什么是标准化?
标准化是通过特征的平均值和标准差,将特征缩放成一个标准的正态分布,缩放后均值为0,方差为1。但即使数据不服从正态分布,也可以用此法。特别适用于数据的最大值和最小值未知,或存在孤立点。

2.5. 为什么要做标准化?
1)标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,不同于归一化,并不是为了方便与其他数据一同处理或比较。

2)标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

2.6. 标准化的方法有哪些?
Z-Score标准化:
在这里插入图片描述
(z-score标准化方法适用于属性A的最大值和最小值未知的情况)

三、归一化和标准化应用场景

一般情况下,如果对输出结果范围有要求,用归一化。
如果数据较为稳定,不存在极端的最大最小值,用归一化。

如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

在机器学习中,标准化是更常用的手段,归一化的应用场景是有限的。
其原因就在于二者的区别:

1、标准化更好保持了样本间距。当样本中有异常点时,归一化有可能将正常的样本“挤”到一起去。比如三个样本,某个特征的值为1,2,10000,假设10000这个值是异常值,用归一化的方法后,正常的1,2就会被“挤”到一起去。如果不幸的是1和2的分类标签还是相反的,那么,当我们用梯度下降来做分类模型训练时,模型会需要更长的时间收敛,因为将样本分开需要更大的努力!而标准化在这方面就做得很好,至少它不会将样本“挤到一起”。

2、标准化更符合统计学假设。对一个数值特征来说,很大可能它是服从正态分布的。标准化其实是基于这个隐含假设,只不过是略施小技,将这个正态分布调整为均值为0,方差为1的标准正态分布而已。

参考

https://www.jianshu.com/p/967f2199cd8c

https://www.zhihu.com/question/20467170/answer/392949674

https://www.zhihu.com/question/361290840

https://www.zhihu.com/question/20467170/answer/839255695

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器不学习我学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值