决策树

本文介绍了决策树算法中的三种主要方法:ID3、C4.5和CART,并详细解释了熵、信息增益、信息增益比及基尼不纯度等关键概念。通过对比不同算法的特点,帮助读者理解如何选择合适的决策树算法。

相关概念

  • 熵: 熵是表示随机变量不确定性的度量,熵越大,随机变量不确定性也就越大
  • 信息增益:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差
  • 信息增益比
  • 基尼不纯度。例如 一个随机事件X ,P(X=0) = 0.5 ,P(X=1)=0.5,那么基尼不纯度就为 P(X=0)(1 - P(X=0)) + P(X=1)(1 - P(X=1)) = 0.5。一个随机事件Y ,P(Y=0) = 0.1 ,P(Y=1)=0.9,那么基尼不纯度就为P(Y=0)(1 - P(Y=0)) + P(Y=1)(1 - P(Y=1)) = 0.18

ID3算法

“奥卡姆剃刀”的基础上:越是小型的决策树越优于大的决策树(be simple简单理论)。
ID3算法中根据信息增益评估和选择特征。
就是说在训练集中,某个属性所取的不同值的个数越多,那么越有可能拿它来作为分裂属性,而这样做有时候是没有意义的,另外ID3不能处理连续分布的数据特征。

C4.5算法

C4.5算法用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;
在对付连续属性的时候,算法会选取一个阈值将连续属性分为两类,而阈值的选取标准就是可以使信息增益比最大

CART算法

Classification And Regression Tree(CART),顾名思义,既可以创在分类树,又可以创造回归树。
CART作为分类树时,特征属性可以是连续类型也可以是离散类型,但观察属性(即标签属性或者分类属性)必须是离散类型。CART分类树在节点分裂时使用GINI指数,GINI指数是度量数据划分或训练数据集D的不纯度为主。GINI值越小,表明样本的纯净度越高(即该样本只属于同一类的概率越高)。衡量出数据集某个特征所有取值的Gini指数后,就可以得到该特征的Gini Split info,也就是GiniGain。不考虑剪枝情况下,分类决策树递归创建过程中就是每次选择GiniGain最小的节点做分叉点,直至子数据集都属于同一类或者所有特征用光了。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值