决策树原理学习笔记(一)

决策树每次选择最优的特征进行节点分裂,本文介绍两种最基础的特征选择方法,ID3和C4.5算法。

在介绍这两种算法之前,小编先介绍衡量数据不确定性的指标——熵,数据越随机或不确定,对应的熵越大。

熵的公式:

其中 为变量X取值为i的概率,变量X共有n个取值。

若基于某一个特征Y进行节点分裂,分裂后的熵为H(X|Y)。

条件熵公式:

其中为变量Y取值的概率。

1. ID3算法

若某一特征划分后的数据不确定性减小的最多,我们就选择对该特征进行分裂,这一原理就是ID3算法。

若X表示特征划分前的数据,Y表示选择划分的特征,I(X,Y)表示对数据X进行特征Y划分后,数据不确定性的减少量。

公式为:

2. C4.5算法

ID3算法的缺点在于:熵的减少量倾向于选择取值较多的特征进行划分,因此C4.5在ID3的基础上,对特征的取值多少进行了归一化。

公式:

其中为基于特征Y划分后的熵,即特征熵。

是特征Y取值为i的样本个数。

3. C4.5算法的不足

C4.5算法没有剪枝步骤,算法易于过拟合;

C4.5算法生成的决策树是多叉决策树,在构建机器学习模型的过程中,二叉树往往比多叉树更高效。

C4.5只能用来分类。

下节介绍CART决策树,可以较好的解决C4.5算法的不足。

欢迎扫码关注:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值