skewness以及数据去偏度

最新推荐文章于 2024-12-19 09:07:06 发布

xyandar

最新推荐文章于 2024-12-19 09:07:06 发布

阅读量8.6k

点赞数 1

文章标签：数据

**1. 首先摆出公式**

S = 1 n \sum n i = 1 ( x i - x ¯ ) 3 ( 1 n \sum n i = 1 ( x i - x ¯ ) 2 ) 3 2

$\Huge S= \frac { \frac{1}{n} \sum_{i=1}^n (x_{i}- \bar{x}) ^{3} } { ( { \frac{1}{n} \sum_{i=1}^n ( x_{i}-\bar{x} )^ 2 } )^ \frac {3}{2} }$

2. skewness
引用维基的说法：

在概率论和统计学中，偏度衡量实数随机变量概率分布的不对称性。

skewness>0 :　左偏（负偏态）对于单峰概率密度函数，左侧的尾部比右侧的长，如左图
skewness<0 :　右偏（正偏态）对于单峰概率密度函数，右侧的尾部比较长，如右图
skewness=0 :　典型如对称分布（但是skewness=0不一定是对称分布）

3. 均值与众数的关系

要重视的是，如果说偏度就是描述数据分布在均值两边的数据多寡，这样肯定是错误的。
正如

右偏时一般算术平均数>中位数>众数，左偏时相反，即众数>中位数>平均数。正态分布三者相等。
也只是在单峰连续的时候一般成立。

以下这两种认识也是错误的，但可以简化理解：
- 大于平均值的数目多：左偏（负偏态）
可以简单的理解为受到了极小值的影响，平均数变小，导致了上左图的的图像左边的尾巴很长很长。
注意：在这里中位数与均值的大小关系，只是在连续型单峰的概率分布图下（如上图左）一般中均值小于中位数。
- 大于平均数的数目多：右偏（正偏态）
同样是由于极大值的影响，平均数变大，导致了图像右边的尾巴拉长。

至于为什么以上说法是错误的，可以用一个例子反证：

一个离散型随机变量，等可能地取-1或1。如果对这个随机变量取1001个样本做概率分布图，那么均值约等于0，中位数~~呵呵了

4. 数据的预处理
去偏度是数据挖掘的数据预处理流程中一个操作步骤，

Replacing the data with the log, square root, or inverse may help to remove the skew.（Applied Predictive Modeling）

就是可以通过log、开根号等方式可以降低偏度。
事实上Box-Cox Transformations提出了更为通用化的公式：

f (x) = ⎧ ⎩ ⎨ ⎪ ⎪ ( x + α ) λ - 1 λ, l o g (x + α)), λ \neq 0 λ = 0

$\Huge \begin{eqnarray} f(x)= \begin{cases} \cr \frac{(x+\alpha)^\lambda-1}{\lambda}, &\lambda \neq 0 \cr log(x+\alpha )), &\lambda = 0 \end{cases} \end{eqnarray}$

λ取值代表了不同的处理方式：