认识决策树之分类树(ID3、C4.5、CART)

本文介绍了决策树的三种经典算法:ID3、C4.5和CART。ID3使用信息增益作为特征选择标准,C4.5通过信息增益比避免偏好取值多的特征,而CART采用基尼指数选择最优切分点。决策树模型具有易理解和解释性强的优点,但也容易过拟合,且忽略特征间的相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

树模型的思想主要是每次选择具有分类能力强的特征作为树分裂的节点,重复该步骤直到在某一节点上的数据都属于同一类别时停止。由于在选择分类能力强的特征时,有不同的选择标准,因此出现了不同种树的模型。

ID3

在ID3算法中,通过信息增益来衡量特征的分类能力。在介绍熵之前首先介绍下自信息。相对于用概率表示该事件发生确定性的度量,自信息是该事件发生不确定性的度量,或者表示为该事件发生所携带信息量的大小。信息量越大,该事件发生的不确定性也就越大。用公式表示为:
I ( x i ) = − l o g p i I(x_i)=-logp_i I(xi)=logpi
其中事件 x i x_i xi发生的概率 p i p_i pi I ( x i ) I(x_i) I(xi)表示事件 x i x_i xi发生的自信息。其函数图像为:

横坐标为事件发生的概率,纵坐标为该事件的自信息。可以看出随着概率越大,该事件所包含的信息量就越少,该事件发生的不确定性也就越小。

是自信息的期望,其公式为:
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=i=1npilogpi
举例来说,假设一个信号源发射信号,其发射信号1的概率为 p 1 = 1 2 p_1=\frac{1}{2} p1=21

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值