3、基于秩回归的介绍与应用

最新推荐文章于 2025-08-17 15:42:32 发布

net55

最新推荐文章于 2025-08-17 15:42:32 发布

阅读量41

点赞数

CC 4.0 BY-SA版权

分类专栏：秩方法赋能机器学习文章标签：秩回归中位数异常值

本文链接：https://blog.youkuaiyun.com/net55/article/details/151311100

秩方法赋能机器学习专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于秩回归的介绍与应用

1. 中位数的稳健性

在数据分析中，异常值是一个常见的问题，它可能会对统计结果产生较大的影响。为了更好地理解中位数的稳健性，我们来看几个例子。
假设存在集合 2，当 (x(n) = 100) 时，标准差 (sd(x) = 39.6)，中位数绝对偏差 (mad(x) = 2.22)。若将 (x(n)) 变为 1000，此时 (sd(x) = 407.0)，而 (mad(x)) 仍为 2.22，保持不变。这清晰地表明，单个较大的异常值会破坏均值和标准差的完整性，而中位数和 (mad(x)) 即使在 (x(n) \to \infty) 时也能保持稳定。
再看集合 3，其元素为 ({100, 100, 1, 4, 2, 5, 3})，这里有两个异常值，均值会进一步偏离集合 1 原始元素的范围，而中位数则能保持相对稳定。基于此，我们认为中位数具有稳健性。

1.1 崩溃点

崩溃点是衡量统计量或估计量对异常值容忍程度的指标。它指的是在估计量给出错误（即任意大）结果之前，能够处理的错误（即任意大）观测值的比例。估计量的崩溃点越高，其稳健性就越强。
对于样本量为 (n) 的样本，均值统计量的崩溃点为 (\frac{1}{n})，对于大样本量，其崩溃点几乎为零。而中位数最多可以容忍 50% 的数据为异常值（统计量仍在一个紧凑的集合中）。
直观上，崩溃点不能超过 50%，因为如果超过一半的观测值受到污染，就无法区分基础分布和污染分布。因此，最大崩溃点为 0.5，并且存在能达到此崩溃点的估计量。不过，这类估计量往往需要在某些正则条件（如一致性和渐近正态性）上做出权衡。基于秩的方法崩溃点约为 0.3，但具备所需的正则条件，是非常有效的估计