1. 随机森林优缺点
随机森林(RF)是Bagging的一个扩展变体。RF在以决策树为基分类器进行集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。
Bagging就是对数据集训练多个基分类器,然后将基分类器得到的结果进行投票表决作为最终分类的结果。基分类器在构建过程中需要尽可能保证训练出的基分类器有比较大的差异性,这就需要用对训练样本集进行采样,不同的基分类器训练不同的样本集。但是样本过少会导致基分类器的性能较差,我们可以通过使用相互有交叠的采样子集。
具体来说,传统的决策树在选择划分属性时通过对当前结点的属性集合计算信息增益,选择信息增益最大的属性作为划分属性。而在随机森林中,对基决策树的每一个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分。这里的参数k控制随机性的引入程度,若 k=d