随机森林相对于决策树的优点主要是:
1)降低异常值所带来的影响:因为随机森林选取了部分数据建立了多个决策树,即使有个别决策树会因为异常值的影响导致预测不准确,但预测结果是参考多个决策树得到的结果,降低了异常值带来的影响。
2)降低了过拟合的可能性,因为决策树是采用了所有的特征及样本,容易出现过拟合(即对训练样本有很好的效果,对测试集的效果很差),随机森林是采用了部分样本的部分特征而构造的很多个决策树(采取的有放回抽样),特征和数据在单个决策树上变少了,降低了过拟合的可能性。
随机森林相对于决策树的缺点主要是:
1)计算量相对于决策树很大,性能开销很大。
2)可能会导致有些数据集没有训练到,但这种几率很小。
随机森林的优点:
1)可以处理高纬度的数据;
2)训练之前不需要特意的做特征选择;
3)建立很多树,预防了过拟合风险;
缺点:
计算量大,无法做到对实时数据的预测