在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价y的因素有房子面积x1、卧室数量x2等。这里的x1,x2又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。
下图最左是原始数据;中间是中心化数据,就是平移到原点;最右是z-score规范后的数据,均值为0,方差为1。
一、数据标准化的意义:
1、数据的量纲不同;数量级差别很大
经过标准化处理后,原始数据转化