集成学习:装袋法、随机森林与提升法详解
1. 随机森林(Random Forests)
1.1 随机森林的基本原理
装袋法(Bagging)通过对多个模型的预测结果进行平均来降低方差。然而,其方差的降低程度受到各个集成成员之间相关性的限制。随机森林则是在装袋法的基础上,通过增加额外的随机约束,进一步降低集成成员之间的相关性,从而实现更大的方差降低。
具体来说,在训练分类或回归树时,随机森林在每次节点分裂时,并不考虑所有可能的输入变量,而是随机选择一个包含 $q \leq p$ 个输入的子集,并仅将这些变量作为可能的分裂变量。这种随机子集的选择是独立地为每个集成成员进行的,因此不同的树很可能使用不同的子集。
1.2 随机森林的算法步骤
以下是随机森林的主要算法步骤:
1. 从原始数据集中进行 $B$ 次有放回抽样,得到 $B$ 个自助数据集 $\hat{T}(b)$。
2. 对于每个自助数据集 $\hat{T}(b)$,训练一棵分类或回归树:
- 在每次节点分裂时,随机选择 $q$ 个输入变量作为可能的分裂变量。
- 根据这些变量进行节点分裂,构建决策树。
3. 对 $B$ 棵树的预测结果进行平均,得到最终的预测结果。
1.3 随机森林的优缺点
与装袋法相比,随机森林的优点在于能够降低集成成员之间的相关性,从而实现更大的方差降低。然而,随机森林也会增加每个单独树的方差,并且可能会增加偏差。但经验表明,相关性的降低通常是主导因素,因此平均预测方差通常会降低。
1.4 随机森林的参数选择
随机森林中的一
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



