集成算法总结:
1.思想:将若干个弱学习器组合之后产生一个新学习器,弱学习器的准确率需在0.5以上。
2.算法分类:1.Bagging.2.Boosting.3.Stacking
3.算法简介:
Bagging: 通过随机采样,从训练集中采集固定个数的样本,没采集一次都将样本放回,也就是说之前采集到的样本有可能被继续采集到。然后选择出T个数据集分别训练T个模型的集成技术。
随机森林(RF):(随机森林在构建过程中各个树是相互独立的)
1.从原始样本集(n个样本)中用Bootstrap采样(有放回重采样)选出n个样本;真正用于模型训练的是这抽取出来的样本去重之后的数据集,也就是一般情况用户模型训练的样本数目实际不等于n,应该是小于n
2.使用抽取出来的子数据集(去重后)来训练决策树;从所有属性中随机选择K个属性,从K个属性中选择出最佳分隔属性作为节点来迭代的创建决策树。
3.重复以上两步m次,建立m棵决策树
4.这m个决策树属于随机森林,通过投票选择决定数据属于哪一类
RF应用:分类、回归、特征转换、异常点检测等
RF的变种算法:
Extra Tree:原理基本和RF一样,区别如下:
1.Rf会随机重采样来作为子决策树的训练集,而Extra Tree每个决策树采用原始数据集训练。
2.RF选择划分特征点的时候会和传统决策树一样,会基于信息增益、信息增益率、基尼系数、均方差等原则来选择最优特征值;而ExtraTree会随机选择一个特征值来划分决