基于秩的回归方法:从基础到应用
1. 中位数的稳健性
在数据处理中,均值和中位数是两个常用的统计量。均值是所有数据的总和除以数据的数量,而中位数是将数据按升序或降序排列后位于中间位置的数值。
- 均值与中位数对比 :通过三个数据集的对比可以发现,均值容易受到极端值的影响,而中位数相对更稳健。例如,在包含少数极大值的数据集中,均值会被拉高,而中位数则能更稳定地反映数据的中心趋势。具体数据对比见下表:
| 数据集 | 均值 | 中位数 |
| ---- | ---- | ---- |
| 数据集1 | [具体均值1] | [具体中位数1] |
| 数据集2 | [具体均值2] | [具体中位数2] |
| 数据集3 | [具体均值3] | [具体中位数3] |
- 崩溃点 :崩溃点是衡量统计量稳健性的一个重要指标。它表示在数据集中可以容忍的最大异常值比例,超过这个比例,统计量就会失去其有效性。中位数的崩溃点为 0.5,这意味着即使有一半的数据是异常值,中位数仍然能够保持相对稳定。
- 顺序和秩统计量 :顺序统计量是将数据按顺序排列后得到的统计量,而秩统计量则是数据在排序中的位置。例如,对于数据集 {3, 1, 2},顺序统计量为 {1, 2, 3},秩统计量为 {3, 1, 2}。以下是一些对比顺序和秩统计量的例子:
| 原始数据 | 顺序统计量 | 秩统计量 |
| ---- | ---- | ---- |
| [数据1] | [顺序统计量1] | [秩统计量1] |
| [数据2] | [
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



