问题1:ID3、C4.5、CART树的算法思想
ID3算法的核心是在决策树的每个节点上应用信息增益准则选择特征,递归地构架决策树。
C4.5算法的核心是在生成过程中用信息增益比来选择特征。
(1)经验熵 刻画了对数据集进行分类的不确定性。
(2)经验条件熵 刻画了在特征 A 给定条件下,对数据集分类的不确定性。
(3)信息增益 刻画了由于特征 A 的确定,从而使得对数据集的分类的不确定性减少的程度。
信息增益:数据集 D 的经验熵与关于特征 A 的经验条件熵的差值。
问题2:ID3、C4.5、CART树分裂依据的公式
ID3算法分类依据:信息增益:经验熵 - 经验条件熵
经验熵
经验条件熵
信息增益
C4.5算法分类依据:信息增益比
其中,数据集D关于特征A的经验熵为