基于秩的回归方法:实现稳健数据科学的新途径
1. 概率与统计的黄金时代
随着数据科学和机器学习的兴起,我们正处于概率与统计的黄金时代。曾经,这个领域就能吸引众多优秀学生,如今,其热度更是空前高涨。理论统计与应用统计的结合,是机器学习和数据科学的重要组成部分。要深入参与数据科学,就需要扎实掌握概率与统计的理论和实践两方面知识。
2. 传统估计方法的不足
在机器学习和数据科学中,最小二乘法和似然原理是传统的估计方法。然而,这些方法在处理含有异常值的数据时,存在明显的局限性。异常值可能源于人为错误、传输错误、测量误差或数据本身的特性。它们会极大地影响估计结果,导致预测准确性下降。
例如,在简单线性回归中,均值是最流行回归方法的基础,但它对异常值非常敏感。给定一组 (n) 个值 (x = {x_1, \ldots, x_n}),算术平均值(简称均值)的计算公式为:
[mean(x) = \bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i]
而中位数是将数据排序后位于中间位置的值。如果 (n) 为奇数,中位数是排序后中间的那个值;如果 (n) 为偶数,中位数是中间两个值的平均值。具体公式如下:
当 (n) 为奇数时,(median(x) = x_{(\frac{n + 1}{2})});
当 (n) 为偶数时,(median(x) = \frac{1}{2}(x_{(l)} + x_{(u)})),其中 (x_{(l)} = x_{(\frac{n}{2})}) 且 (x_{(u)} = x_{(\frac{n}{2} + 1)})。
下面通过一个表格对比均值和中位数在不同
超级会员免费看
订阅专栏 解锁全文
645

被折叠的 条评论
为什么被折叠?



