请和我一起学习机器学习算法(随机森林)

随机森林解析

最新推荐文章于 2021-12-23 11:30:23 发布

原创最新推荐文章于 2021-12-23 11:30:23 发布 · 242 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法

机器学习算法学习专栏收录该内容

11 篇文章

订阅专栏

随机森林是一种集成学习方法，属于Bagging的变种。它通过在所有属性中随机选择一部分进行决策树构建，增加模型的多样性和稳定性。随机森林的训练效率通常高于Bagging，因为其在构建决策树时采用随机型决策树，只需考察属性子集。

认识随机森林

随机森林

随机森林（random forest,RF），本质上是一种集成学习。所谓集成学习，就是使用一组训练数据，训练多个决策模型，并让他们共同参与决策的方法。说白了就是“三个臭皮匠顶个诸葛亮”的意思。集成学习主要是分为两类：

个体学习器之间存在强的依赖关系，必须串行生成的序列方法。
这个可以理解为，下一个臭皮匠主要处理的问题和上一个臭皮匠的表现有关，所以下一个决策模型需要在上一个决策模型生成之后才可以进行生成。
个体学习器之间不存在强依赖关系，可以同时生成的并行方法。
各个样本学习器之间相互独立。

这两类的典型就是Boosting 和 Bagging 。
而随机森林就属于第二种，是一种bagging的变种。那么什么是bagging呢？

bagging

参考周志华老师的西瓜书。bagging 就是通过使用有放回的自助采样，从原始数据集合中获取m个采样数据集合，然后基于这些数据集合训练处m个学习器，再讲这些学习器进行结合。这就是bagging的基本思想。算法流程表示为：

*输入：训练集D, 学习算法alg()，模型个数T
过程：

从训练数据集合中获取T个采样数据集合
使用学习算法alg，和T个数据集合训练T个算法模型
输出：
将待决策的样本使用T个模型进行决策，投票表决最后的结果。*

随机森林

随机森林是bagging的一个变种。描述起来非常简单，只是基于bagging的基础上引入了随机的属性。对比与前面所说的决策树是在所有的属性(假设为d个)选择一个最优的属性作为分类节点。而在随机森林中，是在所有属性集合中随机选择K个属性集合，在这被随机选择的k个属性集合中选择最优的属性作为分类的结点。明显，如果k=d，则和传统决策树生成是一样的。推荐的k是log2(d)

*输入：训练集D，学习算法alg(), 模型个数T，随机扰动k(k<d)
过程：