一、Kolmogorov-Smirnov测试的基本概念
Kolmogorov-Smirnov(简称K-S)测试是一种非参数统计方法,用于比较两个概率分布。其主要用途包括:
- 比较两个样本:判断两个样本是否来自同一概率分布。
- 比较样本与理论分布:检验一个样本是否符合特定理论分布(如正态分布)。
K-S测试的核心思想基于**累积分布函数(Cumulative Distribution Function, CDF)**的差异。具体而言,它通过比较两个分布的经验累积分布函数(ECDF)或一个样本的ECDF与理论分布的CDF,计算它们之间的最大距离(称为K-S统计量)来判断分布是否相似。
1.1 两种K-S测试
K-S测试分为以下两种:
- 单样本K-S测试:用于比较一个样本的分布与已知的理论分布(如正态分布、均匀分布)。
- 双样本K-S测试:用于比较两个样本的分布,判断它们是否来自同一分布。
1.2 为什么叫“Kolmogorov-Smirnov”?
K-S测试以两位苏联数学家**安德烈·科尔莫戈罗夫(Andrey Kolmogorov)和尼古拉·斯米尔诺夫(Nikolai Smirnov)**的名字命名。科尔莫戈罗夫提出了单样本测试的理论基础,而斯米尔诺夫将其扩展到双样本情况。
二、数学原理与推导
为了深入理解K-S测试,我们需要从累积分布函数和K-S统计量入手。
2.1 累积分布函数(CDF)
累积分布函数 F(x)F(x)F(x) 表示随机变量 XXX 小于或等于某个值 xxx 的概率:
F(x)=P(X≤x)F(x) = P(X \leq x)F(x)=P(X≤x)。
- 对于理论分布,F(x)F(x)F(x) 是一个已知的数学函数(如正态分布的CDF)。
- 对于样本数据,我们可以计算经验累积分布函数(ECDF),定义为:
Fn(x)=1n∑i=1nI(Xi≤x)F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leq x)Fn(x)=n1∑i=1nI(Xi≤x),
其中:- nnn 是样本大小;
- XiX_iXi 是样本点;
- I(Xi≤x)I(X_i \leq x)I(Xi≤x) 是指示函数,若 Xi≤xX_i \leq xXi≤x,则值为1,否则为0。
ECDF Fn(x)F_n(x)Fn(x) 是一个阶梯函数,随着样本量 nnn 增加,它逐渐逼近真实分布的CDF。
2.2 K-S统计量
K-S测试的核心是计算两个累积分布函数之间的最大差异。对于单样本测试,比较的是样本的ECDF Fn(x)F_n(x)Fn(x) 和理论分布的CDF F(x)F(x)F(x);对于双样本测试,比较的是两个样本的ECDF Fn1(x)F_{n_1}(x)Fn1(x) 和 Fn2(x)F_{n_2}(x)Fn2(x)。
K-S统计量 DDD 定义为:
- 单样本K-S测试:
Dn=supx∣Fn(x)−F(x)∣D_n = \sup_x |F_n(x) - F(x)|Dn=supx∣Fn(x)

最低0.47元/天 解锁文章
2143

被折叠的 条评论
为什么被折叠?



