统计数据挖掘中的常用方法解析
1. 惩罚回归
惩罚回归是在标准回归方法(如基于似然的方法)基础上,对参数的大小添加约束(惩罚)。虽然这种惩罚会使参数估计产生偏差,但它也能降低参数的方差,通过偏差 - 方差权衡来获得更好的性能。惩罚方法通过将估计的模型系数收缩至零来工作。有些方法可以将系数精确收缩至零(实际上从模型中剔除该变量),而另一些方法则将所有系数收缩至非零值。这些方法也被称为收缩或正则化方法。
在惩罚回归中,基于一组 $N$ 个训练样本,所选参数需满足以下约束最小化条件:
$\hat{\beta} = \arg \min_{\beta} \left{ \sum_{i = 1}^{N} (y_i - x_i^T \beta)^2 \right}$,
约束条件为 $Penalty(\beta) < k$。
不同的惩罚回归方法在施加的惩罚 $Penalty(\beta)$ 上有所不同。最流行的方法包括:
- 岭回归(Ridge Regression)
- 套索回归(Lasso)
- 自适应套索回归(Adaptive Lasso)
- 弹性网络(Elastic Net)
这些方法依赖于一个或多个调整参数,这些参数决定了收缩的程度。因此,惩罚回归方法可以生成一组模型,每个模型与调整参数的特定设置相关联。为了进行最终的模型选择,分析人员必须采用调整方法来选择这些参数的最优设置。常用的方法包括:
- 模型拟合标准,如 Mallow’s $C_p$ 统计量
- 赤池信息准则(AIC)
- 贝叶斯信息准则(BIC)
- 验证数据上的平均平方误差
- 交叉验证
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



