集成学习二Bagging与Random Forest

最新推荐文章于 2024-12-23 20:03:47 发布

原创最新推荐文章于 2024-12-23 20:03:47 发布 · 934 阅读

0 ·

CC 4.0 BY-SA版权

机器学习相关专栏收录该内容

18 篇文章

订阅专栏

本文介绍了集成学习中的两种方法：Bagging和RandomForest。Bagging通过自助采样法进行有放回抽样，生成多个训练集，并基于这些训练集训练多个基学习器，最终通过投票或平均的方法进行预测。RandomForest则进一步引入了属性随机化，增加模型多样性。

（集成学习一Boosting ）http://blog.youkuaiyun.com/loveitlovelife/article/details/79392187
欲得到泛化性能强的集成学习器，要求个体学习器尽可能的相互独立，但是在现实任务中无法做到，但可以设法尽可能的达到“独立”的条件。

Bagging

并行集成学习方法的代表。
基本描述：
基于自助采样法进行有放回抽样，对于m个样本的数据集，则训练集中约有63.2%的数据集出现在采集样本中。( $1-(\frac{m-1}{m})^m$ ,m取无穷大，63.2%的样本用于训练模型，剩余样本进行“包外估计”），采样出T个含m个训练样本的采样集，然后基于每个采样集训练出基学习器进行结合。
Bagging通常对分类任务使用投票法，对回归任务使用简单平均法。

算法流程
输入：训练集 $D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)};$
基学习算法 $\Lambda;$
训练轮数T.
过程:
1. $~for~ t=1,2,...,T~do$
2: $\quad ~h_t=\Lambda(D,D_{bs})$
3: $end~ for$
输出： $H(x)=arg~max_{y \in \Gamma} \sum_{t=1}^T II(h_t(x)=y)$

+Bagging集成学习器的复杂度与基学习器的复杂度同阶。AdaBoost适用于二分类任务；Bagging用于多分类、回归等任务。

+在决策树模型中，包外样本可以辅助剪枝；神经网络模型中，辅助早期停止减小过拟合风险。

+Bagging关注降低方差，适用于决策树，神经网络。

Random Forest

描述：
对基决策树的每个节点，先从该节点的属性集合中随机选择包含k个属性的子集，然后再从这个子集当中选择一个最优属性用于划分。（推荐值： $k=log_2 d$ ）
多样性来源：样本采样的扰动、属性扰动。
训练效率高：Bagging使用“确定性的”决策树，对结点所有属性进行考察；随机森林使用“随机性”决策树，只需考察一个属性子集。