前言
决策树作为监督学习算法的经典,在商业上(如:电信客户流失预测等)具有广泛的应用,常见的决策树算法有:ID3、C4.5、C5.0等,其中ID3算法是基础,另两种为改进算法,C5.0又作为一种商业软件而存在,但我们可以调用R中的C50包实现该算法,本文主要介绍ID3、C4.5算法的异同。
信息增益
信息增益是信息论中的重要物理量,用来衡量信息的重要程度,通俗来讲可以把它当做一个先验概率的增量,即:事物A发生,使得事物B发生的概率的减少量。信息增益(Gain)的值在0到1之间,当Gain(A,B)=0,事物A、B无关,当Gain(A,B)=1,事物A、B之间关联程度最大。
相同点
1.两种算法都是决策树算法
2.均具有树形结构,模型的可解释性强
相对于其他分类算法,决策树的模型可解释性更具有说明性,因为树状结构对于每一个分枝节点均具有明确的标准,而不像SVM将数据点映射到高维空间难以想象,也不想神经网络处理过程黑箱而难以理解。