【引用小例子超详细解说】ID3和C4.5决策树详解及应用（一）

最新推荐文章于 2023-09-11 22:36:23 发布

原创最新推荐文章于 2023-09-11 22:36:23 发布 · 1.4k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #机器学习 #数据挖掘 #ID3 #C4.5

machine learning 同时被 2 个专栏收录

3 篇文章

订阅专栏

数据挖掘

2 篇文章

订阅专栏

本文详细介绍了决策树中的ID3和C4.5算法，通过一个具体的小实例展示了如何利用ID3算法处理数据，解释了信息熵、条件熵和信息增益等基本概念，逐步构建决策树的过程。

1、引例

假如让不了解NBA的社区张大妈猜去年夺冠的球队 【去年总决赛勇士VS骑士，勇士总冠军】 。给出的候选球队依次为w-1-火箭、w-2-勇士、w-3-步行者、w-4-雷霆、e-1-猛龙、e-2-凯尔特人、e-3-76人 和 e-4-骑士这8支队伍。当大妈每猜一次时只能给出正确与错误的反馈时，那么如何让不知情的张大妈能在最少次数下答对？

在不知情的情况下猜测，每个队伍的夺冠概率相同，那么最糟的情况是猜了7次，利用折半法也需要3次。因为当概率均等时，信息熵最大，即不确定性最大。（信息熵概念下文有）那如果大妈平时偶尔了解过NBA并且知道球队分为东西部以及了解某几个球队比较有夺冠实力的话，那不就可以减少猜测的次数了？

这背后就隐藏着决策树了，决策树就是降低信息不确定性的过程。

2、基本概念

引入决策树前，必须要了解“信息熵”以及“信息增益”。

2.1、信息熵

想了解熵的更多信息，可以参阅另外一篇博客。

熵是表示随机变量不确定性的度量。

信息论之父克劳德·香农给出的信息熵的三个性质[1]：

1、单调性，发生概率越高的事件，其携带的信息量越低；

2、非负性，信息熵可以看作为一种广度量，非负性是一种合理的必然；

3、累加性，即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和，这也是广度量的一种体现。

熵（entropy）一般用 $H$ 表示，单位为比特。当概率均等时，信息熵最大，即不确定性最大。 香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式：
$C\sum_{x\in \chi }p(x)\log p(x)$

其中 $C$ 为常数，我们将 $C = 1$ 便可以得到信息熵公式。

2.2、条件熵

条件熵（condition entropy）表示在给定已知某种条件 $X$ 下，事物 $Y$ 的熵即为条件熵 $H(Y\mid X)$ ，其公式定义为：
$H(Y\mid X) = \sum_{x\in X}p(x)H(Y\mid x) = - \sum_{x\in X}p(x)\sum_{y\in Y}p(y\mid x)\log p(y\mid x)$

2.3、信息增益

信息增益（information gain）表示存在某种条件 $X$ ，它使得条件熵 $H(Y\mid X)$ 尽可能的小（也就是“不确定性”减少的多），即当引入信息 $X$ 之后，事物 $Y$ 的熵变小了。则信息增益记为：
$g(Y\mid X) = H(Y) - H(Y\mid X)$

3、小实例(利用ID3算法处理)

【数据介绍】：14天打篮球情况，包含4种环境特征

【目标】：构造决策树

【数据展示】：

ID	weather(天气)	temperature(温度)	humidity(湿度)	windy(风况)	play(是否打球)
1	sunny	hot	high	false	no
2	sunny	hot	high	true	no
3	overcast	hot	high	false	yes
4	rainy	mild	high	false	yes
5	rainy	cool	normal	false	yes
6	rainy	cool	normal	true	no
	overcast	cool	normal	true	yes
8	sunny	mild	high	false	no
9	sunny	cool	normal	false	yes
10	rainy	mild	normal	false	yes
11	sunny	mild	normal	true	yes
12	overcast	mild	high	true	yes
13	overcast	hot	normal	false	yes
14	rainy	mild	high	true	no

【开始分析】：

第一步，根据标签值（打没打篮球），计算熵。

14天中有9天打，5天没打，此时熵：

$\begin{cases}\chi = \left \{ no, yes \right \} \\p(x = yes) = \tfrac{9}{14}\\p(x = no) = \tfrac{5}{14} \end{cases}$

$\sum_{x\in \chi }p(x)\log p(x) = - \frac{9}{14}\log \frac{9}{14} - \frac{5}{14}\log \frac{5}{14} = 0.940$

第二步，根据4种特征分别计算条件熵。

基于weather条件。

通过数据表格，我们知道：
$\begin{cases} sunny(5)\begin{cases}yes(2)\\no(3)\end{cases} \\overcast(4)\begin{cases}yes(4)\\no(0)\end{cases} \\rainy(5)\begin{cases}yes(3)\\no(2)\end{cases} \end{cases}$
那么，计算基于weather的条件熵：
$H(play\mid weather) = \sum_{x\in weather}p(x)H(play\mid x)$

$p(sunny)H(play\mid sunny)+p(overcast)H(play\mid overcast)+p(rainy)H(play\mid rainy)$

其中：
$\begin{cases} weather=\left \{ sunny,overcast,rainy \right \} \\play=\left \{ yes,no \right \} \\p(sunny)=\frac{5}{14} \\p(overcast)=\frac{4}{14} \\p(rainy)=\frac{5}{14} \end{cases} ; \begin{cases} p(yes\mid sunny)=\frac{2}{5} \\p(no\mid sunny)=\frac{3}{5} \\p(yes\mid overcast)=\frac{4}{4}=1 \\p(no\mid overcast)=0 \\p(yes\mid rainy)=\frac{3}{5} \\p(no\mid rainy)=\frac{2}{5} \end{cases}$

$\begin{cases} H(play\mid suny)=-\sum_{y\in play}p(y\mid sunny)\log p(y\mid sunny)=-\frac{2}{5}\log \frac{2}{5}-\frac{3}{5}\log \frac{3}{5}=0.971 \\H(play\mid overcast)=-\sum_{y\in play}p(y\mid overcast)\log p(y\mid overcast)=-1\times\log 1-0=0 \\H(play\mid rainy)=-\sum_{y\in play}p(y\mid rainy)\log p(y\mid rainy)=-\frac{3}{5}\log \frac{3}{5}-\frac{2}{5}\log \frac{2}{5}=0.971 \end{cases}$

所以有：
$H(play\mid weather)=\frac{5}{14}\times 0.971+\frac{4}{14}\times 0+\frac{5}{14}\times0.971=0.693$
基于temperautre条件。

通过数据表格，我们知道：
$\begin{cases} hot(4)\begin{cases}yes(2)\\no(2)\end{cases} \\mild(6)\begin{cases}yes(4)\\no(2)\end{cases} \\cool(4)\begin{cases}yes(3)\\no(1)\end{cases} \end{cases}$
为了不赘述，计算过程同1，可以计算出基于temperature的条件熵：
$H(play\mid temperature)=\sum_{x\in temperature}p(x)H(play\mid x)=\frac{4}{14}\times 1+\frac{6}{14}\times 0.918+\frac{4}{14}\times 0.811=0.911$
基于humidity条件。

通过数据表格，我们知道：
$\begin{cases} high(7)\begin{cases}yes(3)\\no(4)\end{cases} \\normal(7)\begin{cases}yes(6)\\no(1)\end{cases} \end{cases}$
计算出基于humidity的条件熵：
$H(play\mid humidity)=\sum_{x\in humidity}p(x)H(play\mid x)=\frac{7}{14}\times 0.985+\frac{7}{14}\times 0.592=0.788$
基于windy条件。

通过数据表格，我们知道：
$\begin{cases} false(8)\begin{cases}yes(6)\\no(2)\end{cases} \\true(6)\begin{cases}yes(3)\\no(3)\end{cases} \end{cases}$
计算出基于windy的条件熵：
$H(play\mid windy)=\sum_{x\in windy}p(x)H(play\mid x)=\frac{8}{14}\times 0.811+\frac{6}{14}\times 1=0.892$

第三步，计算信息增益。

根据第一步计算的熵以及第二步所计算的条件熵，我们可以计算出第一轮的信息增益：
$\begin{cases} gain(play\mid weather)=H(play)-H(play\mid weather)=0.940-0.693=0.247 \\gain(play\mid temperature)=H(play)-H(play\mid temperature)=0.940-0.911=0.029 \\gain(play\mid humidity)=H(play)-H(play\mid humidity)=0.940-0.788=0.152 \\gain(play\mid windy)=H(play)-H(play\mid windy)=0.940-0.892=0.048 \end{cases}$
可以得知 $gain(play\mid weather)$ 的信息增益最大， $\color{red}{所以第一轮产生的决特征为 weather }$ ，将其设置为决策树的根节点。

此时，根据特征weather的划分后，数据表为：

ID	weather(天气)	temperature(温度)	humidity(湿度)	windy(风况)	play(是否打球)
1	$\color{red}{sunny}$	hot	high	false	no
2	$\color{red}{sunny}$	hot	high	true	no
8	$\color{red}{sunny}$	mild	high	false	no
9	$\color{red}{sunny}$	cool	normal	false	yes
11	$\color{red}{sunny}$	mild	normal	true	yes
3	$\color{green}{overcast}$	hot	high	false	yes
7	$\color{green}{overcast}$	cool	normal	true	yes
12	$\color{green}{overcast}$	mild	high	true	yes
13	$\color{green}{overcast}$	hot	normal	false	yes
4	$\color{blue}{rainy}$	mild	high	false	yes
5	$\color{blue}{rainy}$	cool	normal	false	yes
6	$\color{blue}{rainy}$	cool	normal	true	no
10	$\color{blue}{rainy}$	mild	normal	false	yes
14	$\color{blue}{rainy}$	mild	high	true	no

根据特征 weather 划分后的表格可以清晰的看到，在 weather 为 $\color{green}{overcast}$ 的情况下都去打球了。

此时决策树第一步的画法：

在这里插入图片描述

第四步，重复第二、三俩步骤，选出第二个特征。

此时还剩下三个特征，则开始计算除了 $\color{green}{overcast}$ 的其余10条数据的熵，因为这10天里，有5天打球5天没打，所以此时的熵为：
$H(play)=-\frac{5}{10}\times \log \frac{5}{10}-\frac{5}{10}\times \log \frac{5}{10}=1$
和第一轮一样的处理流程，我们分别计算余下的三个特征的条件熵：

基于 temperature 的条件熵。

通过划分后的数据表格，我们知道：
$\begin{cases} hot(2)\begin{cases}yes(0)\\no(2)\end{cases} \\mild(5)\begin{cases}yes(3)\\no(2)\end{cases} \\cool(3)\begin{cases}yes(2)\\no(1)\end{cases} \end{cases}$

$H(play\mid temperature) = \sum_{x\in temperature}p(x)H(play\mid x)$

$=p(hot)H(play\mid hot)+p(mild)H(play\mid mild)+p(cool)H(play\mid cool)$

其中：
$\begin{cases}p(hot)=\frac{2}{10} \\p(mild)=\frac{5}{10} \\p(cool)=\frac{3}{10} \end{cases} ; \begin{cases}p(yes\mid hot)=0 \\p(no\mid hot)=1 \\p(yes\mid mild)=\frac{3}{5} \\p(no\mid mild)=\frac{2}{5} \\p(yes\mid cool)=\frac{2}{3} \\p(yes\mid cool)=\frac{1}{3} \end{cases}$

$\begin{cases}H(play\mid hot)=-\sum_{y\in play}p(y\mid hot)\log p(y\mid hot)=-0-1\times \log 1=0 \\H(play\mid mild)=-\sum_{y\in play}p(y\mid mild)\log p(y\mid mild)=-\frac{3}{5}\times \log \frac{3}{5}-\frac{2}{5}\times \log \frac{2}{5}=0.971 \\H(play\mid cool)=-\sum_{y\in play}p(y\mid cool)\log p(y\mid cool)=-\frac{2}{3}\times \log \frac{2}{3}-\frac{1}{3}\times \log \frac{1}{3}=0.918 \end{cases}$

所以有：
$H(play\mid temperature)=\sum_{x\in temperature}p(x)H(play\mid x)=\frac{2}{10}\times 0+\frac{5}{10}\times 0.971+\frac{3}{10}\times 0.918=0.761$
基于 humidity 的条件熵。

通过划分后的数据表格，我们知道：
$\begin{cases} high(5)\begin{cases}yes(1)\\no(4)\end{cases} \\normal(5)\begin{cases}yes(4)\\no(1)\end{cases} \end{cases}$
同上，计算得：
$H(play\mid humidity)=\sum_{x\in humidity}p(x)H(play\mid x)=\frac{5}{10}\times0.722+\frac{5}{10}\times0.722=0.722$
基于 windy 的条件熵。

通过划分后的数据表格，我们知道：
$\begin{cases} false(6)\begin{cases}yes(4)\\no(2)\end{cases} \\true(4)\begin{cases}yes(1)\\no(3)\end{cases} \end{cases}$
同上，计算得：
$H(play\mid windy)=\sum_{x\in windy}p(x)H(play\mid x)=\frac{6}{10}\times0.918+\frac{4}{10}\times0.811=0.875$

计算新一轮的信息增益，并选出最大的作为下一个决策特征。

第二轮的信息增益为：
$\begin{cases} gain(play\mid temperature)=H(play)-H(play\mid temperature)=1-0.761=0.0.239 \\gain(play\mid humidity)=H(play)-H(play\mid humidity)=1-0.722=0.278 \\gain(play\mid windy)=H(play)-H(play\mid windy)=1-0.875=0.125 \end{cases}$
可知， $gain(paly\mid humidity)$ 最大，第二轮产生的决策特征为 $\color{red}{humidity}$ 。

此时，根据特征 humidity 的划分后，数据表为：

ID	weather(天气)	temperature(温度)	humidity(湿度)	windy(风况)	play(是否打球)
1	$\color{red}{sunny}$	hot	$\color{red}{high}$	false	no
2	$\color{red}{sunny}$	hot	$\color{red}{high}$	true	no
8	$\color{red}{sunny}$	mild	$\color{red}{high}$	false	no
4	$\color{blue}{rainy}$	mild	$\color{red}{high}$	false	yes
14	$\color{blue}{rainy}$	mild	$\color{red}{high}$	true	no
9	$\color{red}{sunny}$	cool	$\color{blue}{normal}$	false	yes
11	$\color{red}{sunny}$	mild	$\color{blue}{normal}$	false	yes
5	$\color{blue}{rainy}$	cool	$\color{blue}{normal}$	false	yes
6	$\color{blue}{rainy}$	cool	$\color{blue}{normal}$	true	no
10	$\color{blue}{rainy}$	mild	$\color{blue}{normal}$	false	yes

3	$\color{green}{overcast}$	hot	high	false	yes
7	$\color{green}{overcast}$	cool	normal	true	yes
12	$\color{green}{overcast}$	mild	high	true	yes
13	$\color{green}{overcast}$	hot	normal	false	yes

根据特征 humidity划分后的表格可以清晰的看到，在 weather 为 $\color{red}{sunny}$ 并且 humidity 为 $\color{red}{hight}$ 的情况下都没打球，在 weather 为 $\color{red}{sunny}$ 并且 humidity 为 $\color{blue}{normal}$ 的情况下都打球了。

所以此时补充决策树的画法：

在这里插入图片描述

第五步，重复二、三俩步骤，选出第三个特征。

。。。。。。

后面运算以及表格的变化都与前面的操作相似，由于篇幅有限，这里就不赘述了，直接给出最后的分划数据表以及决策树。

第三个选出来的特征为 windy ，然后全部决策并划分结束。

ID	weather(天气)	temperature(温度)	humidity(湿度)	windy(风况)	play(是否打球)
4	$\color{blue}{rainy}$	mild	$\color{red}{high}$	$\color{red}{false}$	yes
5	$\color{blue}{rainy}$	cool	$\color{blue}{normal}$	$\color{red}{false}$	yes
10	$\color{blue}{rainy}$	mild	$\color{blue}{normal}$	$\color{red}{false}$	yes
14	$\color{blue}{rainy}$	mild	$\color{red}{high}$	$\color{blue}{true}$	no
6	$\color{blue}{rainy}$	cool	$\color{blue}{normal}$	$\color{blue}{true}$	no

1	$\color{red}{sunny}$	hot	$\color{red}{high}$	false	no
2	$\color{red}{sunny}$	hot	$\color{red}{high}$	true	no
8	$\color{red}{sunny}$	mild	$\color{red}{high}$	false	no
9	$\color{red}{sunny}$	cool	$\color{blue}{normal}$	false	yes
11	$\color{red}{sunny}$	mild	$\color{blue}{normal}$	false	yes
3	$\color{green}{overcast}$	hot	high	false	yes
7	$\color{green}{overcast}$	cool	normal	true	yes
12	$\color{green}{overcast}$	mild	high	true	yes
13	$\color{green}{overcast}$	hot	normal	false	yes