skewness以及数据去偏度

**1. 首先摆出公式**
S=1nni=1(xix¯)3(1nni=1(xix¯)2)32

2. skewness
引用维基的说法:

在概率论和统计学中,偏度衡量实数随机变量概率分布的不对称性。

  • skewness>0 : 左偏(负偏态)对于单峰概率密度函数,左侧的尾部比右侧的长, 如左图
  • skewness<0 : 右偏(正偏态)对于单峰概率密度函数,右侧的尾部比较长, 如右图
  • skewness=0 : 典型如对称分布(但是skewness=0不一定是对称分布)

    引用自维基

    3. 均值与众数的关系

要重视的是,如果说偏度就是描述数据分布在均值两边的数据多寡,这样肯定是错误的。
正如

右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
也只是在单峰连续的时候一般成立。

以下这两种认识也是错误的,但可以简化理解:
- 大于平均值的数目多:左偏(负偏态)
可以简单的理解为受到了极小值的影响,平均数变小,导致了上左图的的图像左边的尾巴很长很长。
注意:在这里中位数与均值的大小关系,只是在连续型单峰的概率分布图下(如上图左)一般中均值小于中位数。
- 大于平均数的数目多:右偏(正偏态)
同样是由于极大值的影响,平均数变大,导致了图像右边的尾巴拉长。

至于为什么以上说法是错误的,可以用一个例子反证:

一个离散型随机变量,等可能地取-1或1。如果对这个随机变量取1001个样本做概率分布图,那么均值约等于0,中位数~~呵呵了

4. 数据的预处理
去偏度是数据挖掘的数据预处理流程中一个操作步骤,

Replacing the data with the log, square root, or inverse may help to remove the skew.(Applied Predictive Modeling)

就是可以通过log、开根号等方式可以降低偏度。
事实上Box-Cox Transformations提出了更为通用化的公式:

f(x)=(x+α)λ1λ,log(x+α)),λ0λ=0

λ取值代表了不同的处理方式:

  • λ=0 取log转换
  • λ=0.5 开方处理
  • λ=-1 倒数处理
  • λ=2 平方处理
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值