30、统计数据挖掘中的常用方法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/tcp8optimizer/article/details/151058856

统计数据挖掘中的常用方法解析

1. 惩罚回归

惩罚回归是在标准回归方法（如基于似然的方法）基础上，对参数的大小添加约束（惩罚）。虽然这种惩罚会使参数估计产生偏差，但它也能降低参数的方差，通过偏差 - 方差权衡来获得更好的性能。惩罚方法通过将估计的模型系数收缩至零来工作。有些方法可以将系数精确收缩至零（实际上从模型中剔除该变量），而另一些方法则将所有系数收缩至非零值。这些方法也被称为收缩或正则化方法。

在惩罚回归中，基于一组 $N$ 个训练样本，所选参数需满足以下约束最小化条件：
$\hat{\beta} = \arg \min_{\beta} \left{ \sum_{i = 1}^{N} (y_i - x_i^T \beta)^2 \right}$，
约束条件为 $Penalty(\beta) < k$。

不同的惩罚回归方法在施加的惩罚 $Penalty(\beta)$ 上有所不同。最流行的方法包括：
- 岭回归（Ridge Regression）
- 套索回归（Lasso）
- 自适应套索回归（Adaptive Lasso）
- 弹性网络（Elastic Net）

这些方法依赖于一个或多个调整参数，这些参数决定了收缩的程度。因此，惩罚回归方法可以生成一组模型，每个模型与调整参数的特定设置相关联。为了进行最终的模型选择，分析人员必须采用调整方法来选择这些参数的最优设置。常用的方法包括：
- 模型拟合标准，如 Mallow’s $C_p$ 统计量
- 赤池信息准则（AIC）
- 贝叶斯信息准则（BIC）
- 验证数据上的平均平方误差
- 交叉验证