Kolmogorov-Smirnov测试

一、Kolmogorov-Smirnov测试的基本概念

Kolmogorov-Smirnov(简称K-S)测试是一种非参数统计方法,用于比较两个概率分布。其主要用途包括:

  • 比较两个样本:判断两个样本是否来自同一概率分布。
  • 比较样本与理论分布:检验一个样本是否符合特定理论分布(如正态分布)。

K-S测试的核心思想基于**累积分布函数(Cumulative Distribution Function, CDF)**的差异。具体而言,它通过比较两个分布的经验累积分布函数(ECDF)或一个样本的ECDF与理论分布的CDF,计算它们之间的最大距离(称为K-S统计量)来判断分布是否相似。

1.1 两种K-S测试

K-S测试分为以下两种:

  1. 单样本K-S测试:用于比较一个样本的分布与已知的理论分布(如正态分布、均匀分布)。
  2. 双样本K-S测试:用于比较两个样本的分布,判断它们是否来自同一分布。

1.2 为什么叫“Kolmogorov-Smirnov”?

K-S测试以两位苏联数学家**安德烈·科尔莫戈罗夫(Andrey Kolmogorov)尼古拉·斯米尔诺夫(Nikolai Smirnov)**的名字命名。科尔莫戈罗夫提出了单样本测试的理论基础,而斯米尔诺夫将其扩展到双样本情况。


二、数学原理与推导

为了深入理解K-S测试,我们需要从累积分布函数和K-S统计量入手。

2.1 累积分布函数(CDF)

累积分布函数 F(x)F(x)F(x) 表示随机变量 XXX 小于或等于某个值 xxx 的概率:
F(x)=P(X≤x)F(x) = P(X \leq x)F(x)=P(Xx)

  • 对于理论分布,F(x)F(x)F(x) 是一个已知的数学函数(如正态分布的CDF)。
  • 对于样本数据,我们可以计算经验累积分布函数(ECDF),定义为:
    Fn(x)=1n∑i=1nI(Xi≤x)F_n(x) = \frac{1}{n} \sum_{i=1}^n I(X_i \leq x)Fn(x)=n1i=1nI(Xix)
    其中:
    • nnn 是样本大小;
    • XiX_iXi 是样本点;
    • I(Xi≤x)I(X_i \leq x)I(Xix) 是指示函数,若 Xi≤xX_i \leq xXix,则值为1,否则为0。

ECDF Fn(x)F_n(x)Fn(x) 是一个阶梯函数,随着样本量 nnn 增加,它逐渐逼近真实分布的CDF。

2.2 K-S统计量

K-S测试的核心是计算两个累积分布函数之间的最大差异。对于单样本测试,比较的是样本的ECDF Fn(x)F_n(x)Fn(x) 和理论分布的CDF F(x)F(x)F(x);对于双样本测试,比较的是两个样本的ECDF Fn1(x)F_{n_1}(x)Fn1(x)Fn2(x)F_{n_2}(x)Fn2(x)

K-S统计量 DDD 定义为:

  • 单样本K-S测试
    Dn=sup⁡x∣Fn(x)−F(x)∣D_n = \sup_x |F_n(x) - F(x)|Dn=supxFn(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值