http://blog.sina.com.cn/s/blog_7673d4a50102vm6i.html
随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。
随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。
1.随机选择样本
2. 随机选择特征
3. 构建决策树
4. 随机森林投票分类
5. 优缺点分析
- 它能够处理很高维度(feature很多)的数据,并且不用做特征选择;
- 由于随机选择样本导致的每次学习决策树使用不同训练集,所以可以一定程度上避免过拟合;
- 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合;
- 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的