随机森林大致过程如下:
1) 从样本集中有放回随机采样选取n个样本;
2) 从所有特征中随机选择k个特征,对选出的样本利用这些特征建立决策树(一般是CART,也可是别的或者混合);
3) 重复以上步骤m次,即生成m课决策树,形成随机森林;
4)对于新数据,经过每棵树决策,最后投票确认分到哪一类。
随机森林特点:
随机森林有很多优点:
1)每棵树都选择部分样本及部分特征,一定程度避免过拟合;
2)每棵树随机选择样本并随机选择特征,使得具有很好的抗噪能力,性能稳定;
3)能处理很高维度的数据,并且不用做特征选择;
4)适合并行处理;
5)实现比较简单。
缺点:
1) 参数较复杂;
2) 模型训练和预测都比较慢。