14、集成学习:装袋法、随机森林与提升法详解

集成学习:装袋法、随机森林与提升法详解

1. 随机森林(Random Forests)

1.1 随机森林的基本原理

装袋法(Bagging)通过对多个模型的预测结果进行平均来降低方差。然而,其方差的降低程度受到各个集成成员之间相关性的限制。随机森林则是在装袋法的基础上,通过增加额外的随机约束,进一步降低集成成员之间的相关性,从而实现更大的方差降低。

具体来说,在训练分类或回归树时,随机森林在每次节点分裂时,并不考虑所有可能的输入变量,而是随机选择一个包含 $q \leq p$ 个输入的子集,并仅将这些变量作为可能的分裂变量。这种随机子集的选择是独立地为每个集成成员进行的,因此不同的树很可能使用不同的子集。

1.2 随机森林的算法步骤

以下是随机森林的主要算法步骤:
1. 从原始数据集中进行 $B$ 次有放回抽样,得到 $B$ 个自助数据集 $\hat{T}(b)$。
2. 对于每个自助数据集 $\hat{T}(b)$,训练一棵分类或回归树:
- 在每次节点分裂时,随机选择 $q$ 个输入变量作为可能的分裂变量。
- 根据这些变量进行节点分裂,构建决策树。
3. 对 $B$ 棵树的预测结果进行平均,得到最终的预测结果。

1.3 随机森林的优缺点

与装袋法相比,随机森林的优点在于能够降低集成成员之间的相关性,从而实现更大的方差降低。然而,随机森林也会增加每个单独树的方差,并且可能会增加偏差。但经验表明,相关性的降低通常是主导因素,因此平均预测方差通常会降低。

1.4 随机森林的参数选择

随机森林中的一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值