2. skewness
引用维基的说法:
在概率论和统计学中,偏度衡量实数随机变量概率分布的不对称性。
- skewness>0 : 左偏(负偏态)对于单峰概率密度函数,左侧的尾部比右侧的长, 如左图
- skewness<0 : 右偏(正偏态)对于单峰概率密度函数,右侧的尾部比较长, 如右图
skewness=0 : 典型如对称分布(但是skewness=0不一定是对称分布)
3. 均值与众数的关系
要重视的是,如果说偏度就是描述数据分布在均值两边的数据多寡,这样肯定是错误的。
正如
右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等。
也只是在单峰连续的时候一般成立。
以下这两种认识也是错误的,但可以简化理解:
- 大于平均值的数目多:左偏(负偏态)
可以简单的理解为受到了极小值的影响,平均数变小,导致了上左图的的图像左边的尾巴很长很长。
注意:在这里中位数与均值的大小关系,只是在连续型单峰的概率分布图下(如上图左)一般中均值小于中位数。
- 大于平均数的数目多:右偏(正偏态)
同样是由于极大值的影响,平均数变大,导致了图像右边的尾巴拉长。
至于为什么以上说法是错误的,可以用一个例子反证:
一个离散型随机变量,等可能地取-1或1。如果对这个随机变量取1001个样本做概率分布图,那么均值约等于0,中位数~~呵呵了
4. 数据的预处理
去偏度是数据挖掘的数据预处理流程中一个操作步骤,
Replacing the data with the log, square root, or inverse may help to remove the skew.(Applied Predictive Modeling)
就是可以通过log、开根号等方式可以降低偏度。
事实上Box-Cox Transformations提出了更为通用化的公式:
λ取值代表了不同的处理方式:
- λ=0 取log转换
- λ=0.5 开方处理
- λ=-1 倒数处理
- λ=2 平方处理