事实上随机森林的基本单元决策树很早就被提出来了,只不过单个决策树效果不好。这个情况和神经网络差不多。
到了2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。在运算没有增加的情况下,精度提高了不少。
进入正题
随机森林由两个部分组成
随机 和 森林
森林简单来说就是很多颗树,而这个树就是决策树。
所以现在的问题可以有以下三个:什么叫决策树,树树之间怎么组成森林,又怎么个随机法?
现在先来回答第一个问题:
决策树,简单来说就是用来决策的树状结构。
emmm像这样的:
用更专业(装逼)的话来说就是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二。
第二个问题:树树之间怎么组成森林?
森林四步走,精度九十九
第一步:设有N个样本,有放回地随机选择n个样本。
第二步:设每个样本有M个属性,在每个决策树进行分裂时,随机抽样m个属性,m远小于M。然后运用某种评价指标评价每个属性,选择最佳属性作为分裂属性。
第三步:对于每个节点而言都要按照第二步来走,一直到评价指标遍历所有抽样出来的属性都无法得到改进为止。每棵树都尽可能生长没有剪枝。
第四步:重复前面三个步骤就变成了随机森林。
最后的结果会像这样:
那么接下来这个森林怎么用呢?就是说怎么用来预测呢?
我们都知道每棵树都会给出一个结果,那么怎么将这些结果变成