决策树的ID3、C4.5算法

本文介绍了决策树中的ID3和C4.5算法,包括信息熵、信息增益等概念。ID3算法通过信息增益选择最佳属性进行划分,而C4.5则引入信息增益率来降低对多值属性的偏好,以构建更优的决策树。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、信息熵

欲理解ID3算法,首先需要了解一下信息学里的信息熵概念。

信息熵是对当前信息情况复杂度、未知度的一种度量,当前情况越复杂,即未知度越高,熵值就越大。

举个例子,小明今晚要去电影院看电影,我们想要了解的情况是小明会坐在电影院的哪个位置,这时候有三种情况:

1、电影院没有别人,全场50个座位任小明挑选;

2、电影院只剩两个处于同个区域的座位;

3、电影院一样只剩两个座位,但这两个座位一个在影院的正中间,一个在最角落。

以上三种情况里,我们很容易能看出来,第三种情况对我们来说是最友好的(我们的目标是了解小明会坐在哪里),而第一种情况是最不友好的。放在熵(entropy)的数值上来比较,就是Ent1>Ent2>Ent3。

从1、2种情况的比较,我们能知道,信息熵的大小应该跟事件的数量有关,事件(可选座位)越多,信息熵越大。

从2、3种情况的比较,我们还能知道,信息熵的大小还跟事件发生的概率有关,像2、3虽然都只有两个事件(座位),但2的座位可能选择的概率是五五开,而3的概率可能是99%和1%,当然我们默认一般人都是喜欢坐在正中间的位置看电影的。

所以我们知道,信息熵的大小应该跟可能事件的数量和概率相关。

接着我们来看一下信息熵的计算公式:


显然,确实是跟事件数量n和概率p(x)相关。

至于想更具体知道公式是如何得出的,知乎上有一个回答写得特别好:信息熵是什么?


2、信息增

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值