决策树:属性的选择(续)

接先前一节总结决策树的,还有一些问题。上节的参考:

决策树:从特征的重要程度说起

上节主要介绍了决策树的构造方法,以及非常重要一部分是对于每个节点的特征属性是怎么选择的,这是决策树的核心。

比较原始的是基于信息熵与信息增益的方法做的,这也对应着最开始的ID3方法。为了改进ID3,出现了基于信息增益率的特征选择以及基于基尼系数的特征选择方法。对应起来就是:

(1)信息增益 -> ID3
(2)信息增益率 -> C4.5
(3)基尼指数 -> CART

  • 信息增益

信息增益的做法最简单,上节主要探讨的是这种,简单来说就是几个步骤:

(1)首先计算一个未挑选属性之前,从样本分类角度来看的一个系统的信息熵。用实例假设好理解,假设100个样本,每个样本有7维特征A-G,100个样本中20个类别1,30个样本为类别2,50个为类别3,那么基于类别的系统的信息熵就是info(F) = -sum(plogp) = -20/100 * log(20/100)-30/100 * log(30/100) - 50/100*log(50/100)

(2)计算挑选一个属性后,按该属性分类完的分类系统信息熵。假设以A属性划分,划分完可以分为两半,假设一半40个样本(10个类1,10个类2,20个类3),另一半60个样本(10个类1,20个类2,30个类3),那么从类别角度来看系统的信息熵为:info(F|A) = -(sum(组1) +sum(组2)) = -([10/40 * log(10/40) + 10/40 * log(10/40) + 20/40 * log(20/40)] + [10/60 * log(10/60) + 20/60 * log(20/60) + 30/60 * log(30/60)]), info(F|A)此为A划分条件下的信息熵.

(3)A属性信息增益为 g(F,A) =(info(F) - info(F|A))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值