ID3决策树

最新推荐文章于 2020-05-16 17:16:32 发布

原创最新推荐文章于 2020-05-16 17:16:32 发布 · 820 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#id3决策树 #算法

算法与模型专栏收录该内容

7 篇文章

订阅专栏

知识准备：信息熵

熵是无序性（或不确定性）的度量指标。加入事件A的全概率划分是（A1,A2,…An），每部分发生的概率是（p1,p2,…pn），那信息熵定义为：

e n t r o p y (p 1, p 2, \dots, p n) = - p 1 l o g 2 p 1 - p 2 l o g 2 p 2 - \dots - p n l o g 2 p n

$entropy(p_1,p_2,\ldots,p_n)=-p_1log_2p_1-p_2log_2p_2-\cdots-p_nlog_2p_n$
通常以2为底数，单位为比特（bit）,在数学证明上通常采用e为底数，单位为奈特（Nat）
更详细的介绍请参考百度百科

核心思想及举例说明

ID3构造树的基本想法是随着树深度的增加，节点的熵迅速地降低。熵降低的速度越快越好，这样我们有望得到一棵高度最矮的决策树。在决策树各级结点上选择属性时，用信息增益（information gain）作为属性的选择标准，以使得在每一个非叶结点进行测试时，能获得关于被测试记录最大的类别信息。其具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。这是理想情况，当决策树的高度为属性（决策变量）的个数，叶子节点不纯，这意味着要根据概率来做出决策，即选择大概率分类作为分类结果。

信息增益计算：
设S是n个数据样本的集合，共分m个不同类 $C_i(i=1,…,m)$ 。设 $n_i$ 是类 $C_i$ 中的样本数。则该样本分类所需的期望信息由下式给出：

I (n 1, n 2, \dots, n m) = - \sum i = 1 m p i l o g 2 (p i)

$I(n_1,n_2,\ldots,n_m)=-\sum_{i=1}^mp_ilog_2(p_i)$
其中,

pi=ni/n $p_i=n_i/n$ ，是样本属于类

Ci $C_i$ 的概率。
设属性A具有v个不同值

a1,a2,…,av ${a_1,a_2,\ldots,a_v}$ 。可以用属性A将S划分为v个子集

{S1,S2,…,Sv} $\{S_1,S_2,\ldots,S_v\}$ ，设

nij $n_ij$ 是子集

Sj $S_j$ 中属于类

Ci $C_i$ 的样本数。由A划分子集的熵或信息期望由如下式给出：

E (A) = \sum j = 1 v (n 1 j + n 2 j + \dots + n m j) / n * I (n 1 j, n 2 j, + \dots, n m j)

$E(A)=\sum_{j=1}^v(n_{1j}+n_{2j}+\cdots+n_{mj})/n*I(n_{1j},n_{2j},+\ldots,n_{mj})$
其中，

I(n1j,n2j,+…,nmj)=−∑mi=1pijlog2(pij) $I(n_{1j},n_{2j},+\ldots,n_{mj})=-\sum_{i=1}^mp_{ij}log_2(p_{ij})$

pij=nij/(n1j+n2j+⋯+nmj) $p_{ij}=n_{ij}/(n_{1j}+n_{2j}+\cdots+n_{mj})$ ，是

Sj $S_j$ 中属于类

Ci $C_i$ 的概率。
那么，在属性A上分支将获得的信息增益是：

G a i n (A) = I (n 1, n 2, \dots, n m) - E (A)

$Gain(A)=I(n_1,n_2,\ldots,n_m)-E(A)$

ID3算法的优点：算法的理论清晰，方法简单，学习能力较强。
ID3算法的缺点：只对比较小的数据集有效，且对噪声比较敏感，当训练数据集加大时，决策树可能会随之改变。

实例说明：
参考文章-归纳决策树ID3（Java实现）

outlook	temperature	humidity	windy	play
sunny	hot	high	FALSE	no
sunny	hot	high	TRUE	no
overcast	hot	high	FALSE	yes
rainy	mild	high	FALSE	yes
rainy	cool	normal	FALSE	yes
rainy	cool	normal	TRUE	no
overcast	cool	normal	TRUE	yes
sunny	mild	high	FALSE	no
sunny	cool	normal	FALSE	yes
rainy	mild	normal	FALSE	yes
sunny	mild	normal	TRUE	yes
overcast	mild	high	TRUE	yes
overcast	hot	normal	FALSE	yes
rainy	mild	high	TRUE	no

以上是14天的气象数据（指标包括outlook,temperature,humidity,windy），并已知这些天气是否打球（play），训练决策树以对新数据进行预测。
在无天气信息时，根据历史数据，打球的概率是9/14，不打球的概率是5/14，此时的熵为：

- 9 14 l o g 2 9 14 - 5 14 l o g 2 5 14 = 0.940

$-\frac{9}{14}log_2\frac{9}{14}-\frac{5}{14}log_2\frac{5}{14}=0.940$
属性有4个：outlook,temperature,humidity,windy。首先确定根节点。
outlook=sunny时，2/5的概率打球，3/5的概率不打球。entropy=0.971
outlook=overcast时，entropy=0
outlook=rainy时，entropy=0.971
而根据历史统计数据，outlook取值为sunny、overcast、rainy的概率分别是5/14、4/14、5/14，所以当已知变量outlook的值时，信息熵为：

5 / 14 \times 0.971 + 4 / 14 \times 0 + 5 / 14 \times 0.971 = 0.693

$5/14 × 0.971 + 4/14 × 0 + 5/14 × 0.971 = 0.693$
因此，信息增益gain(outlook)=0.940-0.693=0.247
同理可以计算得到gain(temperature)=0.029, gain(humidity)=0.152, gain(windy)=0.048
可以看出gain(outlook)最大（即outlook在第一步使系统的信息熵下降得最快），因此选择outlook作为根节点。

这里写图片描述