4.11.4 标准化数据
-
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。
-
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。
In [1]:
import pandas as pd import numpy as np
4.11.4.1 离差标准化(max-min标准化)
离差标准化公式( data=(data-data.min())/(data.max()-data.min()))
离差标准化是对原始数据的一种线性变换,结果是将原始数据的数值映射到[0,1]区间之间,转换公式为:
其中max为样本数据的最大值,min为样本数据的最小值,max-min为极差。离差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法。
离差标准化的特点
- 数据的整体分布情况并不会随离差标准化而发生改变,原先取值较大的数据,在做完离差标准化后的值依旧较大。
- 当数据和最小值相等的时候,通过离差标准化可以发现数据变为0。
- 若数据极差过大就会出现数据在离差标准化后数据之间的差值非常小的情况。
- 同时,还可以看出离差标准化的缺点:若数据集中某个数值很大,则离差标准化的值就会接近于0,并且相互之间差别不大。若将来遇到超过目前属性[min,max]取值范围的时候,会引起系统出错,这时便需要重新确定min和max。

数据预处理中的标准化是将数据按比例缩放,常用方法包括离差标准化、标准差标准化和小数定标标准化。离差标准化通过(data - min) / (max - min)公式将数据映射至[0, 1]区间,保持数据原有的相对关系。标准差标准化和小数定标标准化则是其他常见的规范化手段。"
79892906,7124511,产品分析报告撰写指南:层次与递进分析法,"['产品经理', '产品分析', '产品设计']
最低0.47元/天 解锁文章
169

被折叠的 条评论
为什么被折叠?



