均值方差归一化:把所有数据归一化到均值为0, 方差为1的分布中
4. 对测试集如何归一化? 按照训练集的均值和方差进行归一化
1. 为什幺要进行数据归一化?
样本肿瘤大小和发现时间这两个特征的量纲不一样,在计算样本之间的距离时被发现时间所主导
将发现时间变成以年为单位又会导致样本之间的距离被肿瘤大小所主导
所以需要对数据进行归一化处理---将所有数据映射到同一尺度
2. 几种数据归一化方式
最值归一化: 把所有数据映射到0-1之间
(将数据都映射到min和max区间之内, 然后归一化到0-1)
这种归一化方式适合有明显边界的情况(如学生成绩,像素值)
缺点: 受outlier的影响较大
均值方差归一化:把所有数据归一化到均值为0, 方差为1的分布中
(数据并不保证在0-1之间)
适用于数据分布没有明显的边界,有可能存在极端数据值