30、统计数据挖掘中的常用方法解析

统计数据挖掘中的常用方法解析

1. 惩罚回归

惩罚回归是在标准回归方法(如基于似然的方法)基础上,对参数的大小添加约束(惩罚)。虽然这种惩罚会使参数估计产生偏差,但它也能降低参数的方差,通过偏差 - 方差权衡来获得更好的性能。惩罚方法通过将估计的模型系数收缩至零来工作。有些方法可以将系数精确收缩至零(实际上从模型中剔除该变量),而另一些方法则将所有系数收缩至非零值。这些方法也被称为收缩或正则化方法。

在惩罚回归中,基于一组 $N$ 个训练样本,所选参数需满足以下约束最小化条件:
$\hat{\beta} = \arg \min_{\beta} \left{ \sum_{i = 1}^{N} (y_i - x_i^T \beta)^2 \right}$,
约束条件为 $Penalty(\beta) < k$。

不同的惩罚回归方法在施加的惩罚 $Penalty(\beta)$ 上有所不同。最流行的方法包括:
- 岭回归(Ridge Regression)
- 套索回归(Lasso)
- 自适应套索回归(Adaptive Lasso)
- 弹性网络(Elastic Net)

这些方法依赖于一个或多个调整参数,这些参数决定了收缩的程度。因此,惩罚回归方法可以生成一组模型,每个模型与调整参数的特定设置相关联。为了进行最终的模型选择,分析人员必须采用调整方法来选择这些参数的最优设置。常用的方法包括:
- 模型拟合标准,如 Mallow’s $C_p$ 统计量
- 赤池信息准则(AIC)
- 贝叶斯信息准则(BIC)
- 验证数据上的平均平方误差
- 交叉验证

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值