四、数据标准化 Scikit-learn Preprocessing

一、标准化、去均值、方差缩放(variance scaling)

1.原理介绍

   通过将属性值按比例缩放,使之落入一个小的特定区间,如0.0~1.0,对属性规范化。有很多数据规范化的方法,这里我们将介绍三种:最小--最大规范化,z-score规范化,按小数定标规范化和最大绝对值缩放。

下面简单介绍着几种规范化的原理:

(1)最小--最大规范化

 

            最小--最大规范化对原始数据进行线性变换。假定minA和maxA分别是属性A的最小值和最大值。最小--最大规范化通过计算:

          v'  = (v - min) /(max - min )* (new_max - new_min)  + new_min 

这样可以将A的值映射到区间[new_min , new_max]中的v'。

(2)z-score规范化

        又称为零均值 规范化,将属性A的值基于均值和方差规范化,在不知道属性A的最小值和最大值的时候,或者是离群值左右了最小--最大规范化时,该方法是有用的。
      v' = v - mean / std

(3)按小数定标规范化

        通过移动属性A的小数点位置进行规范化,小数点的移动位数依赖于A的最大绝对值,由下式计算:

                                                     v' = v / 10^j

其中j是使得Max(| v' |) <1的最小整数。

例如:假定属性A的取值范围是-986 ~ 917。A的最大绝对值为986.使用小数定标规范化,用1000(即j = 3)除每个数,这样,-986就会被规范化为-0.986,而917也会被规范化成-0.917.

(4)最大绝对值缩放

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值