目录
一、为何要进行数据预处理?
1.任何收集而来的庞大数据往往是不可能一拿到就可以立马用得上的,比如一些数值大的数据,计算量复杂度高,不容易收敛,很难进行统计处理。
2.数据不符合正态分布,无法做一些符合正态分布的数学分析。
所以为了对数据进行更好的利用,我们需要使数据标准化。
二、数据标准化
数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。这里我们重点讨论最常用的数据归一化处理,即将数据统一映射到[0,1]区间上。
1.归一化的目标
1.把数据转换