随机森林(Random Forest)是属于集成学习的一种组合分类算法(确切说是属于bagging),集成学习的核心思想就是将若干个弱(基)分类器组合起来,得到一个分类性能显著优越的强分类器。如果各弱分类器之前没有强依赖关系、可并行生成,就可以使用随机森林算法。
随机森林利用自主抽样法(bootstrap)从原数据集中有放回地抽取多个样本,对抽取的样本先用弱分类器—决策树进行训练,然后把这些决策树组合在一起,通过投票得出最终的分类或预测结果。
随机森林的生成方法
- 从样本集中通过重采样的方式产生n个样本。
- 建设样本特征数目为a,对n个样本选择a中的k个特征,用建立决策树的方式获得最佳分割点。
- 重复m次,产生m棵决策树。
- 多数投票机制进行预测。
随机森林中的随机是什么意思?
随机森林中的随机性主要体现在两个方面:
- 随机采样:随机森林在计算每棵树时,从全部训练样本(样本数为n)中选取一个可能有重复的、大小同样为n的数据集进行训练(即booststrap采样)。
- 特征选取的随机性:在每个节点