【ML小结5】决策树（ID3、C4.5、CART）

最新推荐文章于 2022-10-19 14:22:03 发布

原创最新推荐文章于 2022-10-19 14:22:03 发布 · 266 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #ID3 #C4.5 #CART

机器学习之个人小结专栏收录该内容

20 篇文章

订阅专栏

本文深入解析决策树算法，包括ID3、C4.5、CART三种决策树模型的构建原理，如信息增益、信息增益率及基尼指数等特征选择标准，以及预剪枝和后剪枝的防过拟合策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

顾名思义，决策树是基于树结构进行决策。决策树的训练通常由三部分组成：特征选择、树的生成、剪枝。

1.ID3决策树

以最大化信息增益为准则来选择划分属性。
假设离散属性a上有V个可能的取值 ${a^1,...,a^V\}$ ，若使用a对样本集D进行划分，则会产生V个分支节点。其中第v个分支节点包含了D中所有在属性a上取值为 $a^v$ 的样本，记为 $D^v$ 。
$\quad Gain(D,a)=Entropy(D)-Entropy(D|a) =Entropy(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Entropy(D^v)$ 信息增益 $G a i n (D, a)$ 越大，则表示使用属性a进行划分所获得的纯度提升越大。
信息熵：越小则X的纯度越高。 $Entropy(X)=−∑x∈Xp(x)logp(x)Entropy(X)=-\sum_{x\in X} p(x)logp(x)$ 条件熵： $=\sum_{x\in X}p(x)Entropy(Y|X=x)$

2.C4.5决策树

信息增益准则对取值数目较多的属性有所偏好，为了减少这种偏好可能带来的不利影响，C4.5决策树以最大化信息增益率为准则来选择划分属性。信息增益率代表单位代价所取得的信息量。 $maxGain_ratio(D,a)=Gain(D,a)Entropy(D,a)=Gain(D,a)−∑v=1V∣Dv∣∣D∣log∣Dv∣∣D∣max \quad Gain\_ratio(D,a)=\frac{Gain(D,a)}{Entropy(D,a)}=\frac{Gain(D,a)}{-\sum_{v=1}^V\frac{|D^v|}{|D|}log\frac{|D^v|}{|D|}}$
联合熵： $Entropy(X,Y)=−∑p(x,y)logp(x,y)Entropy(X,Y)=-\sum p(x,y)logp(x,y)$

3.CART决策树

以最小化基尼指数为准则来选择划分属性。
$minGini_index(D,a)=∣DL∣∣D∣Gini(DL)+∣DR∣∣D∣Gini(DR)min \quad Gini\_index(D,a)=\frac{|D^L|}{|D|}Gini(D^L)+\frac{|D^R|}{|D|}Gini(D^R)$
基尼值=样本被选中的概率*样本被分错的概率，基尼值越小则D的纯度越高。
$Gini(D)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2Gini(D)=\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
CART 决策树既可以用于分类，也可以用于回归；对回归树 CART 算法用平方误差最小化准则来选择特征，对分类树用基尼指数最小化准则选择特征
【例题1】：
在这里插入图片描述
【例题2】：