摘自《数据挖掘与数据化运营实战,思路、方法、技巧与应用》
决策树:建模过程类似一颗树的成长过程,即从根部开始,到树干、到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分支,最终形成若干个结点,每个节点代表一个结论。最常用的3中决策树算法分别是CHAID、CART和ID3。
CHAID:卡方自动相互关系检测,依据局部最优原则、利用卡方检验来选择对因变量最有影响的自变量,CHAID应用的前提是因变量为类别型变量。
CART:分类与回归树,CART的分割逻辑与CHAID相同,每一层的划分都是基于对所有自变量的检验和选择上的。CART采用的检验标准不是卡方检验,而是基尼系数等不纯度的指标。CHAID采用的是局部最优原则,即结点之间互不相干,一个结点确认了以后,下面的生长过程完全在结点内进行,而CART则着眼于总体优化,即先让树尽可能地生长,然后再回过头来对树进行减枝,类似统计分析中回归算法里的反向选择。若自变量存在数据缺失的情况,CART的处理方式将会是寻找一个替代数据来代替缺失值,而CHAID则是把缺失值作为单独的一类数值。
ID3:迭代的二分器,最大的特点在于自变量的挑选标准是:基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂属性,其结果就是对分割后的结点进行分类所需的信息量最小。
决策树作为分类、预测问题的典型支持技术,在用户划分、行为预测、规则梳理等方面具有广泛的应用,可作为其他建模技术前期进行变量筛选的一种方法通过决策树的分割来筛选有效的输入自变量。
决策树
最新推荐文章于 2024-04-29 20:15:23 发布