前言
在进行分析之前,要对数据进行合适的处理,数据基本统计分析和标准化是同时进行的。
其中数据基本统计中,对于标称型数据,统计缺失值数量,分级情况,众数以及众数占比。对于数值型数据,主要统计了均值,标准差,缺失值数量,最小值,最大值,中位数。
标准化与否对结果也会有一定的影响,我们先观察下现在标准化的状态。
一、原始数据分析
1.原数据展示
在求得原始数据的均值、方差、标准差、中位数、最小值、最大值之后,利用散点图将数据展示出来。
通过上图可以看出,除了x2,x7变量外,其他数据的波动性很强,分析时容易产生误差。故需要对此数据集进行标准化或归一化处理。
2.标准化和归一化选取
标准化、归一化的区别:
- 归一化是标准化的一种,它的缩放仅与最大、最小值的差别有关;输出范围在0—1间
- 标准化缩放和每个值都有关系,通过方差体现出来。当数据更集中时,数据标准化后更分散;数据分布很广时,数据标准化后会更集中。输出范围是一个特定的区间,在-∞—+∞。且均值为0,标准差为1的数据。
- 如果对输出结果范围有要求,用归一化;
- 如果数据较稳定,不存在极端的最大最小值,用归一化;
由于此数据较为不稳定
经过上述分析,此数据波动较大,存在极端最大最小值,故选用标准化去处理数据。
二、标准化处理
1.意义
数据标准化其实是对向量X按比例压缩再平移,本质上是一种线性变换。线性变换又很多良好的性质,这决定了对数据变换后的数据反而能提高数据效率。比如:线性变换不改变原始数据的数值排序。这保证了数据变换后依然有意义,因为线性变换保持线性组合与线性关系式不变。
并且在数据标准化后,数据的稳定性得到保证,对后续分析有很大的作用。