决策树 C4.5 理解要点

本文详细介绍了C4.5决策树算法的工作原理及实现过程。重点讲述了如何通过信息增益率选择最佳分裂点,并解释了连续变量与离散变量在决策树中的处理方法。

决策树的主要过程首先用根节点代表一个给定的数据集;然后从根节点开始(包括根节点)在每个节点上选择一个属性,使结点数据集划分(一棵树分裂为几棵树)为更小的子集(子树);直到使用某个属性,其子集中所有样本都属于一个类别,才停止分裂。

这里面需要注意的是如何寻找分裂点,C4.5区别于ID3算法之一在于分裂点选择信息增益率最大的方式。 为什么选择信息增益率而不是信息增益?因为如果仅仅用信息增益,则一个属性具有较多不同值往往容易有较大的信息增益,因此比较容易成为分裂点特征。举个例子比如客户ID,这个特征几乎每行都有不同值,如果将其作为分裂点显然会有overfit的问题

C4.5是可以支持特征是离散变量或者连续变量,

对于离散变量A,如果选择属性A划分数据集S, 其在S上的信息熵计算为

 

 对于连续型数据A,则按属性A的取值递增排序,将每对相邻值的中点看作可能的分裂点,对每个可能的分裂点,计算:

 

最后计算信息增益率,选择增益率最大的节点作为分裂点,信息增益率将分裂信息作为分母,属性取值数目越大,分裂信息值越大,从而部分抵消了属性取值数目所带来的影响

 

 

  

 

转载于:https://www.cnblogs.com/datawang/p/6362521.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值