决策树
构建步骤
1、计算当前决策节点的混乱程度。
2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。
3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。
4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。
集成学习总的来说可以分为如下两种:
1.基于Bagging, 代表算法:随机森林,iForest
Bagging算法是指每一个弱学习器之间不存在强依赖关系,可以并行生成。
2.基于Boosting,代表算法:Adaboost、GBDT、XGBOOST.
Boosting 算法是指每一个弱学习器之间存在强依赖关系,是串行生成的。
Baggiing
bagging算法的流程:
输入为样本集D={(x,y1),(x2,y2),...(xm,ym)}ÿ