Bagging和随机森林

最新推荐文章于 2024-08-26 20:17:55 发布

王先生的副业

最新推荐文章于 2024-08-26 20:17:55 发布

阅读量319

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/uncle_gy/article/details/80024843

机器学习专栏收录该内容

46 篇文章

订阅专栏

Bagging

基本概念

又称袋装（bagging）或者自助聚集(boot strap aggregating)
是一种根据均匀概率分布从数据集中重复采样（有放回）的技术。每个自助采样的样本集都和原数据集一样大。
在又放回的抽样中，如果抽样的个数和原数据集的大小一致，则自助样本 $D_i$ 中会有 $63\%$ 的原训练数据，因为每一个样本抽到 $D_i$ 的概率为 $1-(1-\frac{1}{N})^N$ ,如果 $N$ 足够大，则这个概率收敛于 $1-1/e\approx0.632$

算法

这里写图片描述

关于时间复杂度

$Bagging$ 的时间复杂度大致是 $T(O(m)+O(s))$ ，考虑到采样与投票的平均时间复杂度 $O(s)$ 非常小,而且 $T$ 通常是一个不太大的常数，所以 $Bagging$ 集成和直接使用基学习算法训练的一个学习器的复杂度同阶。这说明 $Bagging$ 是一个很高效的集成学习算法。

随机森林和Bagging

随机森林（Random Forest简称RF），是Bagging的一个扩展变体。RF在以决策树为基学习器构建在 $Bagging$ 集成的基础之上的。进一步在决策树的训练过程中引入了随机属性选择。
具体来说，传统的决策树在选择划分属性的时候是在当前结点属性集合（假定有 $d$ 个属性）中选择一个最优属性。而在 $RF$ 中，对基决策树的每个结点，先从该结点的属性中随机选择一个包含 $k$ 个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数 $k$ 控制了随机性的引入程度：若令 $k=d$ 则基决策树的构建和传统决策树相同。若令 $k=1$ 则相当于随机选择一种属性用于划分。一般情况下推荐 $k=\log_2{d}$