最优化理论-统计学4

偏态、峰态及顺序统计量在数据分析与去噪中的应用

最新推荐文章于 2025-07-29 11:54:07 发布

原创最新推荐文章于 2025-07-29 11:54:07 发布 · 2.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

学习笔记同时被 2 个专栏收录

70 篇文章

订阅专栏

人工智能

15 篇文章

订阅专栏

偏态（Skewness）
- 定义
- 分类与性质
- 公式与解析
- 示例
- 偏态分析
峰态（Kurtosis）
- 定义
- 分类与性质
- 公式与解析
- 示例
- 峰态分析
偏态与峰态综合分析
- 定义与关系
- 公式与示例
顺序统计量（Order Statistics）
- 定义
- 分布函数
- 推导过程
- 示例
经验分布函数（Empirical Distribution Function, EDF）
- 定义
- 公式
- 特性与应用
顺序统计量的经验分布函数
- 定义
- 表达式与推导
- 重复值的影响
顺序统计量和经验分布函数在去除噪声中的应用
- 顺序统计量去噪方法
- 实际应用

1. 偏态（Skewness）

定义：

偏态（Skewness）是用于衡量分布的不对称性的一种统计量。它描述了分布相对于均值的不对称性，特别是分布的尾部形状。偏态反映了分布的偏斜方向，告诉我们数据集中于均值两侧时，哪一侧的数据更加倾向于“拉长”。

分类与性质：

正偏态（右偏态）：
- 定义：正偏态表示分布的右尾较长，即数据的高值较为稀疏，但远离均值，极端值拉长了分布的右侧。
- 特性：正偏态中，均值大于中位数，中位数大于众数。数据的大部分集中在分布的左侧。
- 示例：如收入分布，大多数人收入集中在较低范围，而少数高收入者会拉长右尾。
正偏态分布图：

   |    /
   |   /
   |  /
   | /
   |/
   ----------------------
      ^
      中心向左

负偏态（左偏态）：
- 定义：负偏态表示分布的左尾较长，即数据的低值较为稀疏，极端值拉长了分布的左侧。
- 特性：负偏态中，均值小于中位数，中位数小于众数。数据的大部分集中在分布的右侧。
- 示例：如考试成绩，大部分学生得到较高分数，而少数低分学生拉长左尾。
负偏态分布图：

   |\
   | \
   |  \
   |   \
   |    \
   ----------------------
        ^
      中心向右

对称分布（无偏态）：
- 定义：对称分布没有偏态，数据分布在均值两侧对称，左尾和右尾长度相同。
- 示例：正态分布就是一个无偏态的典型例子。
对称分布图：

     /\
    /  \
   /    \
  /      \
 -------------------
   对称分布

公式与解析：

偏态系数的公式如下：

[
\text{Skewness} = \frac{E[(X - \mu)^3]}{\sigma3}
]

其中：

(E[(X - \mu)^3]) 是数据与均值的三次偏差的期望，用于度量分布的偏斜方向。
(\sigma) 是数据的标准差，标准化数据集的偏差，使得不同尺度的数据可比。

解释：

偏态系数 (> 0)：表示正偏态（右偏态），右尾较长。
偏态系数 (< 0)：表示负偏态（左偏态），左尾较长。
偏态系数 (= 0)：表示分布对称，没有偏态。

示例：

假设有一组数据 (X = [2, 5, 6, 8, 10, 15, 100])，我们可以通过计算偏态系数来判断数据的偏斜情况。由于100这个值远离数据的其余部分，拉长了分布的右尾，偏态系数将会大于 0，表示正偏态。

计算代码示例（Python）：

import numpy as np
from scipy.stats import skew

data = [2, 5, 6, 8, 10, 15, 100]
skewness = skew(data)
print(f"偏态系数: {skewness}")

偏态分析：

偏态分析用于判断数据分布的对称性和方向性，尤其适用于那些可能有极端值的分布。分析结果可以帮助我们了解数据的集中和扩散情况。正偏态分布常见于诸如财富、收入分布等数据中，而负偏态常见于如学生成绩、寿命等数据。

2. 峰态（Kurtosis）

定义：

峰态（Kurtosis）是描述数据分布的尖峰程度与尾部厚度的统计量。它告诉我们分布在均值附近的集聚程度和尾部的离群点概率。通过计算峰态，我们可以了解分布是否比正态分布有更多或更少的极端值。

分类与性质：

高峰态（Leptokurtic）：
- 定义：高峰态表示分布的峰较尖，尾部较厚。相对于正态分布，高峰态分布具有更多的极端值和更尖锐的峰。
- 特性：高峰态的超峰态系数 (> 0)。
- 示例：如某些股票收益分布，其价格剧烈波动时，出现高峰态，表明有更多极端值。
高峰态分布图：

        /\
       /  \
      /    \
     /      \
    -------------------
      高峰态，尖峰

中峰态（Mesokurtic）：
- 定义：中峰态与正态分布相同，既没有比正态分布更多的极端值，也没有更平坦的峰。
- 特性：超峰态系数 = 0。
- 示例：正态分布就是典型的中峰态分布。
中峰态分布图：

       /\
      /  \
     /    \
    /      \
   -------------------
     正态分布

低峰态（Platykurtic）：
- 定义：低峰态表示分布的峰较平缓，尾部较轻，数据的离群点较少。
- 特性：超峰态系数 (< 0)。
- 示例：如均匀分布，数据较为均匀分散。
低峰态分布图：

     ----
    /    \
   /      \
  /        \
 -------------------
   低峰态，平坦

公式与解析：

峰态系数的公式如下：

[
\text{Kurtosis} = \frac{E[(X - \mu)^4]}{\sigma4}
]

为了更直观地表示数据相对于正态分布的离群情况，通常使用超峰态（Excess Kurtosis）：

[
\text{Excess Kurtosis} = \text{Kurtosis} - 3
]

解释：

超峰态 > 0：表示高峰态，分布的尾部更厚，意味着更多极端值。
超峰态 = 0：表示中峰态，分布与正态分布相同。
超峰态 < 0：表示低峰态，尾部较轻

，极端值较少。

示例：

假设有一组数据 (X = [2, 2, 3, 4, 4, 4, 5, 6, 100])，我们可以通过计算峰态系数来判断数据是否存在较多的极端值。由于数据中的100是一个极端值，峰态系数应为正值，表明数据具有高峰态。

计算代码示例（Python）：

import numpy as np
from scipy.stats import kurtosis

data = [2, 2, 3, 4, 4, 4, 5, 6, 100]
kurt = kurtosis(data)
print(f"超峰态系数: {kurt}")

峰态分析：

峰态分析用于判断分布的尾部厚度，分析数据是否包含比正态分布更多的极端值。高峰态分布表示数据可能集中于某个区域且具有更多的极端值，而低峰态表示数据较为分散，极端值较少。

3. 偏态与峰态综合分析

定义与关系：

偏态与峰态都是用于描述分布形状的重要指标，它们从不同角度对分布进行分析：

偏态描述了分布的对称性，用于判断数据的偏斜方向（左偏或右偏）。
峰态描述了分布的尖峰程度和尾部厚度，用于判断数据集中度及极端值的概率。

在综合分析中，通过同时计算偏态和峰态系数，可以更全面地描述数据分布的形状，了解数据是否对称、是否包含更多极端值等。

公式与示例：

偏态公式：
[
\text{Skewness} = \frac{E[(X - \mu)^3]}{\sigma3}
]
用于判断数据分布的偏斜方向和程度。
峰态公式：
[
\text{Kurtosis} = \frac{E[(X - \mu)^4]}{\sigma4}
]
用于衡量数据分布的尖峰程度和尾部的厚度。

综合示例：

假设有一组金融数据，表示某股票的每日回报率：

[X = [0.01, 0.02, -0.01, 0.15, 0.12, -0.03, -0.05, 0.10, -0.02, 0.25, -0.15, 0.30]]

偏态分析：
计算偏态系数 (\text{Skewness} > 0)，说明股票回报率分布为正偏态，即较大的正回报拉长了右尾。
峰态分析：
计算超峰态系数 (\text{Excess Kurtosis} > 0)，说明股票回报率分布具有高峰态，即存在较多的极端值（例如0.30和-0.15），风险较大。

综合来看，该股票回报率具有一定的收益潜力（正偏态），但也伴随着较高的风险（高峰态）。

综合计算代码示例（Python）：

import numpy as np
from scipy.stats import skew, kurtosis

data = [0.01, 0.02, -0.01, 0.15, 0.12, -0.03, -0.05, 0.10, -0.02, 0.25, -0.15, 0.30]
skewness = skew(data)
kurt = kurtosis(data)

print(f"偏态系数: {skewness}")
print(f"超峰态系数: {kurt}")

4. 顺序统计量（Order Statistics）

定义：

顺序统计量是指将一组样本数据按大小排序后的每一个数据点。例如，假设从总体中随机抽取了 (n) 个样本，并将这些样本按升序排列为 (X_{(1)}, X_{(2)}, \dots, X_{(n)})，其中 (X_{(1)}) 是最小值，(X_{(n)}) 是最大值，(X_{(k)}) 是第 (k) 个最小值，即第 (k) 顺序统计量。

顺序统计量可以帮助我们分析样本的极值、分位数以及其他分布特性。

分布函数：

假设总体的分布函数为 (F(x))，第 (k) 个顺序统计量 (X_{(k)}) 的累积分布函数 (F_{(k)}(x)) 表示第 (k) 顺序统计量小于或等于 (x) 的概率：

[
F_{(k)}(x) = P(X_{(k)} \leq x) = \sum_{i=k}^{n} \binom{n}{i} [F(x)]^i [1 - F(x)]^{n - i}
]

其中：

(\binom{n}{i}) 是组合数，表示从 (n) 个样本中选出 (i) 个小于等于 (x) 的组合数。
(F(x)) 是总体的累积分布函数，表示样本小于或等于 (x) 的概率。

推导过程：

为了推导顺序统计量的分布函数，我们需要考虑：

样本中至少有 (k) 个样本小于或等于 (x)，剩余的 (n-k) 个样本大于 (x)。
对于每个样本 (X_i)，小于等于 (x) 的概率为 (F(x))，大于 (x) 的概率为 (1 - F(x))。

因此，通过组合数表示选择 (i) 个样本小于等于 (x) 的情况，我们可以得到第 (k) 顺序统计量的分布函数。

示例：

假设我们从均匀分布 (U(0, 1)) 中抽取了 (n) 个样本，关注最小值（即第一个顺序统计量）的分布。最小值的累积分布函数为：

[
F_{(1)}(x) = 1 - (1 - x)^n
]

这表示最小值小于或等于 (x) 的概率随着样本量 (n) 的增加而增加。

5. 经验分布函数（Empirical Distribution Function, EDF）

定义：

**经验分布函数（EDF）**是样本数据的累积分布函数，它根据样本数据计算出每个值出现的累计概率。对于一个样本数据集 (X_1, X_2, \dots, X_n)，经验分布函数定义为：

[
F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leq x)
]

其中：

(I(X_i \leq x)) 是指示函数，当 (X_i \leq x) 时取值为1，否则为0。
(n) 是样本的大小。

特性与应用：

EDF 是阶梯函数：在样本值的每个位置上，它会发生跃升，跃升的幅度为 (1/n)。
无偏性：经验分布函数是无偏估计，能够估计总体的真实分布。
应用：EDF 可用于统计推断，如估计总体分布、构建置信区间等。

公式：

假设有一组样本数据 (X_1, X_2, \dots, X_n)，则经验分布函数可以写为：

[
F_n(x) = \frac{\text{number of observations } \leq x}{n}
]

EDF 是样本中小于或等于 (x) 的样本点的比例。

6. 顺序统计量的经验分布函数

定义：

当经验分布函数应用于顺序统计量时，EDF 可以表示为每个顺序统计量的值在总体分布中的累积概率。假设样本已经按升序排序，得到顺序统计量 (X_{(1)}, X_{(2)}, \dots, X_{(n)})，则第 (k) 个顺序统计量 (X_{(k)}) 对应的经验分布函数值为：

[
F_n(X_{(k)}) = \frac{k}{n}
]

这意味着，第 (k) 顺序统计量的经验分布函数表示样本中小于或等于该值的样本点的比例。

表达式与推导：

顺序统计量和经验分布函数的结合使得每个顺序统计量 (X_{(k)}) 对应的经验分布值 (F_n(X_{(k)})) 为 (k/n)，因为顺序统计量按升序排列，第 (k) 个统计量对应了样本中恰好 (k) 个小于或等于该值的样本点。这个过程实际上将样本数据“均匀地分布”在0到1之间。

例如，假设有一个排序后的样本 (X_{(1)}, X_{(2)}, X_{(3)}, X_{(4)}, X_{(5)})，则对应的经验分布函数值分别为：
[
F_n(X_{(1)}) = \frac{1}{5}, \quad F_n(X_{(2)}) = \frac{2}{5}, \quad \dots, \quad F_n(X_{(5)}) = \frac{5}{5}
]

重复值的影响：

如果样本中存在重复值（即多个顺序统计量的数值相同），经验分布函数在这些重复值处的跳跃幅度会变大。例如，假设 (X_{(k)} = X_{(k+1)} = \dots = X_{(k+m-1)})，则经验分布函数在该位置处会跃升 (m/n)，而不是通常的 (1/n)。这反映了多个相同的样本值同时累积到该位置。

在实际中，处理重复值时需要特别注意，这种现象在实际数据（例如金融数据或测量数据）中经常发生。

7. 顺序统计量和经验分布函数在去除噪声中的应用

顺序统计量去噪方法：

顺序统计量可以在数据处理和信号处理中用于去除噪声。其中，中值滤波就是一种基于顺序统计量的经典去噪方法。其原理是：

对数据的一个局部窗口内的值进行排序，得到相应的顺序统计量。
使用排序后的中值来代替当前数据点。

由于中值对异常值（例如尖锐的噪声）不敏感，因此它能够有效地平滑数据，去除噪声，但同时保持边缘特性。

应用领域：

图像去噪：中值滤波在图像处理中广泛用于去除椒盐噪声。具体做法是对每个像素的邻域像素值排序，选取其中的中值来替换该像素值，从而消除噪点但保持图像的边缘。
时间序列平滑：在时间序列数据中，顺序统计量（例如中值）可以用来消除数据中的异常点或波动。通过滑动窗口逐个平滑数据点，能够有效减小异常值对整体趋势的影响。

实际应用：

图像处理中去除椒盐噪声的具体方法：
假设有一幅受噪声污染的灰度图像，某些像素值异常地显示为极高值或极低值。我们可以使用 3x3 窗口对每个像素的邻域值排序，选择中值替代当前像素值，从而去除噪声。例如，对于某个像素及其邻域值 ([120, 125, 130, 90, 80, 255, 0, 200, 100])，将其排序为 ([0, 80, 90, 100, 120, 125, 130, 200, 255])，则选取中值 120 作为新的像素值。
金融数据中的去噪应用：
在分析股票价格波动时，数据中可能存在异常的价格跳动（噪声）。通过计算滑动窗口内的中值，能够去除那些异常波动，同时保留数据的基本趋势。