格式驾驭不了,可查看我的有道笔记:http://note.youdao.com/noteshare?id=ebd6df1b349efbacf4c30dbe212e9a85
- RandomForest 特点:
-
- 是一个包含多个决策树的分类器
- 输出类别由个别树输出的类别的众数决定
- 非线性
-
- 步骤:
- 随机采样
- 有放回采样
- 随机提取n个样本m个特征构建决策树,重复N次
- 没有剪枝
- 完全分裂
- 完全分裂方式构建决策树
- 分类问题:
- 采用Bagging投票方式选择类别频次最高的
- 回归问题:
- 直接取每颗树结果的平均值
- 随机采样
- 优点:
-
- 比较适合做多分类问题,训练和预测速度快,在数据集上表现良好;
- 对训练集容错能力强,是一种有效地估计缺失数据的一种方法,当数据集中有大比例的数据缺失时仍然可以保持精度不变和能够有效处理大的数据集;
- 能够处理很高唯独的数据,并且不用做特征选择;即:可以处理没有删减的成千上万的变量。
- 能够在分类的过程中生成一个泛化误差的内部无偏估计;
- 能够在训练过程中检测到特征之间的相互影响以及特征的重要性程度;
- 不会出现过度拟合;
- 实现简单并且容易实现并行化;
-