基于秩回归的介绍与应用
1. 中位数的稳健性
在数据分析中,异常值是一个常见的问题,它可能会对统计结果产生较大的影响。为了更好地理解中位数的稳健性,我们来看几个例子。
假设存在集合 2,当 (x(n) = 100) 时,标准差 (sd(x) = 39.6),中位数绝对偏差 (mad(x) = 2.22)。若将 (x(n)) 变为 1000,此时 (sd(x) = 407.0),而 (mad(x)) 仍为 2.22,保持不变。这清晰地表明,单个较大的异常值会破坏均值和标准差的完整性,而中位数和 (mad(x)) 即使在 (x(n) \to \infty) 时也能保持稳定。
再看集合 3,其元素为 ({100, 100, 1, 4, 2, 5, 3}),这里有两个异常值,均值会进一步偏离集合 1 原始元素的范围,而中位数则能保持相对稳定。基于此,我们认为中位数具有稳健性。
1.1 崩溃点
崩溃点是衡量统计量或估计量对异常值容忍程度的指标。它指的是在估计量给出错误(即任意大)结果之前,能够处理的错误(即任意大)观测值的比例。估计量的崩溃点越高,其稳健性就越强。
对于样本量为 (n) 的样本,均值统计量的崩溃点为 (\frac{1}{n}),对于大样本量,其崩溃点几乎为零。而中位数最多可以容忍 50% 的数据为异常值(统计量仍在一个紧凑的集合中)。
直观上,崩溃点不能超过 50%,因为如果超过一半的观测值受到污染,就无法区分基础分布和污染分布。因此,最大崩溃点为 0.5,并且存在能达到此崩溃点的估计量。不过,这类估计量往往需要在某些正则条件(如一致性和渐近正态性)上做出权衡。基于秩的方法崩溃点约为 0.3,但具备所需的正则条件,是非常有效的估计
超级会员免费看
订阅专栏 解锁全文
1008

被折叠的 条评论
为什么被折叠?



