1. 什么是随机森林
以决策树作为基学习器,boosting为集成方法的一种监督学习方法。
随机森林会随机选择指定数量的属性,再从这些属性中挑选出最优属性进行划分,而传统决策树则是选择最优的属性进行划分。这里的参数k控制了随机性的引入程度。如果k=d(全部属性集),则基决策树的构建=传统决策树构建。如果k=1,基决策树每个节点随机选择一个属性进行划分。一般推荐k=log2d。
2. 优缺点
优:
- 能够处理多特征数据
- 不用做特征选择,能自动确定哪些特征比较重要
- 容易实现,计算开销少
- 对缺失值数据进行估计时,随机森林是十分有效的方法,如果有很大一部分特征遗失,仍可以维持准确度。
缺:
- 属性取值过多容易对随机森林造成很大影响,所以在这种数据上产生的属性权值是不可信的
- 特征过多时,容易造成过拟合
3. 随机森林与传统决策树的区别
1 随机森林是以普通决策树作为基学习器,把多个决策树结合在一起,在训练过程中进行随机属性选择。(随机森林会随机选择指定数量的属性,再从这些属性中挑选出最优属性进行划分,而传统决策树则是选择最优的属性进行划分。)
2 传统决策树在属性划分时,选择当前节点属性集合中最优属性
4. 随机森林优于bagging的原因
1 随机森林是以普通决策树作为基学习器,把多个决策树结合在一起,在训练过程中进行随机属性选择。(随机森林会随机选择指定数量的属性,再从这些属性中挑选出最优属性进行划分)
2 随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动
3 bagging使用“确定型”决策树,在划分属性选择时需要考虑所有属性;而随机森林使用“随机型”决策树,在划分属性选择时只需要考虑了一个属性子集。因此训练效率更优。
这偏文章也不错:https://blog.youkuaiyun.com/qq_18668137/article/details/81135888