机器学习-决策树理论

最新推荐文章于 2024-10-28 16:01:47 发布

wendaocp

最新推荐文章于 2024-10-28 16:01:47 发布

阅读量392

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/wendaocp/article/details/104991210

机器学习专栏收录该内容

4 篇文章

订阅专栏

决策树理论

本文先从熵说起，再到互信息，到信息增益。借助信息增益来确定决策树某节点的最优特征选择。使用递归的思想将决策树构建出来。
当树构建完成后，在使用此树做预测时，依然使用递归的思路。

所需基础

熵
数据结构-树
递归算法

熵

决策树理论中始终离不开熵的身影。

图1 熵

图1中展示了各种熵H，由此韦恩图可知：

I(X;Y) = H(X) - H(X|Y) // 其中I(X;Y) 被称为互信息

上式在决策树中会被用到，请先记住。

决策树 Decision Tree

顾名思义，决策树是用于决策的树。举个例子先

图2 是否去相亲

现实中在相亲之前，女生可根据一个个的feature（年龄、长相、收入、公务员）来对男生做判断，依据男生的各种条件来一层层决定是否和他相亲。

这种思维用决策树表示出来，即是图2。在每个节点上都有一个feature，以此feature的数值来产生分支。而在新的分支上，又可有新的节点再做分支，直到叶子节点即决定是否见面。

当前问题

为什么最开始先以“年龄”为判断标准，然后是长相、收入、公务员？

解答

由于目前没有足够数据的支撑，此处解释为：当使用树中的这种判断顺序时，可最快的做出决策或者说最有效的对目标人选进行选择。

注意：知晓feature的优劣，是决策树的核心！

信息增益 Information Gain

我们使用信息增益来判断feature的优劣，以方便对feature做出选择。因为构建决策树时，必须知道每个节点处的feature是什么。

信息增益：表示得知feature A的信息，而使得类别X的信息的不确定性减少的程度。

结合相亲的案例对比的解释一下，见下表

相亲案例	算法中	特点
所有的相亲待选男生	原始的dataset	最混乱
使用某个属性比如年龄对待选者划分，分成了不大于30岁和大于30岁两个子群体	使用某个feature对dataset进行划分成多个subDataset	每个子群体的混乱程度较低

信息增益就是：使用这个feature将dataset划分成subDataset，划分前与后的熵之差。

用公式写出来就是：

g(D,A) = H(D) - H(D|A)

g(D,A)：对于数据集Dataset使用特征A之后的信息增益
H(D)：是Dataset的熵（称为经验熵）
H(D|A)：Dataset在给定A情况下的条件熵（经验条件熵）

对比最开始提到的互信息和这里的信息增益，可看出来是一回事。
因此为了方便记忆和理解，可以把g(D,A)的公式和韦恩图图1结合起来。
类比如下：

互信息	信息增益
I(X;Y) = H(X) - H(X\|Y)	g(D,A) = H(D) - H(D\|A)

计算经验熵H(D)

$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$
上式中：

$C_k|$ 是第k个类别对应的采样数据集的数目
$C_k|/|D|$ 指第k个label的个数占总数比值

举例，数据集如下面的“贷款表”

ID	年龄	是否有工作	是否有自己的房子	信贷情况	是否给贷款（label）
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	很好	是
10	中年	否	是	很好	是
11	老年	否	是	很好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	很好	是
15	老年	否	否	一般	否

上表中，有两种label即 $C_1$ 是和 $C_2$ 否。其中，有9个是，6个否。则

$∣C1∣∣D∣=9/15\frac{|C_1|}{|D|}=9/15$ ， $∣C2∣∣D∣=6/15\frac{|C_2|}{|D|}=6/15$

因此 $-\frac{9}{15}*log(\frac{9}{15}) - \frac{6}{15}*log(\frac{6}{15})$

计算经验条件熵H(D|A)

$H(D∣A)==∑i=1npi∑k=1KH(Dk∣Ai)=−∑i=1n∣Di∣∣D∣∑k=1K∣Dik∣∣Di∣log∣Dik∣∣Di∣H(D|A)=\\[2ex] =\sum_{i=1}^np_i\sum_{k=1}^KH(D_k|A_i)\\[2ex] = -\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|}$

其中：

$D_i|$ ，当某个feature有多种取值 $a_1, a_2, ..., a_i, ..., a_n$ 时，则 $D_i|$ 是这个feature的第i个取值的对应dataset数目
$D_{ik}|$ ，在 $D_i$ 里第 $k$ 个label的样本数量。

依然拿贷款表举例:

在贷款表中第1个feature是年龄，有3种取值是青年中年和老年，分别各有5个。则 $D_1|$ =5, $D_2|$ =5, $D_3|$ =5
对于年龄是青年的群体，即对于 $D_1$ 而言，数据有2种label “是”和“否”，“是”有2个（表中ID为3,4），“否”有3个（表中ID为1,2,5）。则 $D_{11}|=2$ , $D_{12}|=3$
以此类推， $D_{21}|=3, |D_{22}|=2$ , $D_{31}|=4, |D_{32}|=1$
最终对于特征A是‘’年龄“”时，
$H(D∣A1)=−∣D11∣∣D1∣∗log∣D11∣∣D1∣−∣D12∣∣D1∣∗log∣D12∣∣D1∣=−25∗log25−35∗log35=0.97095H(D|A_1) =-\frac{|D_{11}|}{|D_1|}*log\frac{|D_{11}|}{|D_1|} - \frac{|D_{12}|}{|D_1|}*log\frac{|D_{12}|}{|D_1|} \\[2ex] =-\frac{2}{5}*log\frac{2}{5} - \frac{3}{5}*log\frac{3}{5}=0.97095$

$H(D∣A2)=−∣D21∣∣D2∣∗log∣D21∣∣D2∣−∣D22∣∣D2∣∗log∣D22∣∣D2∣=−35∗log35−25∗log25=0.97095H(D|A_2) =-\frac{|D_{21}|}{|D_2|}*log\frac{|D_{21}|}{|D_2|} - \frac{|D_{22}|}{|D_2|}*log\frac{|D_{22}|}{|D_2|}\\[2ex] =-\frac{3}{5}*log\frac{3}{5} -\frac{2}{5}*log\frac{2}{5}=0.97095$

$H(D∣A3)=−∣D31∣∣D3∣∗log∣D31∣∣D3∣−∣D32∣∣D3∣∗log∣D32∣∣D3∣=−45∗log45−15∗log15=0.72193H(D|A_3) =-\frac{|D_{31}|}{|D_3|}*log\frac{|D_{31}|}{|D_3|} - \frac{|D_{32}|}{|D_3|}*log\frac{|D_{32}|}{|D_3|}\\[2ex] =-\frac{4}{5}*log\frac{4}{5} -\frac{1}{5}*log\frac{1}{5}=0.72193$
最终：
$H(D∣A=年龄)=p1∗H(D∣A1)+p2∗H(D∣A2)+p3∗H(D∣A3)=∣D1∣∣D∣∗H(D∣A1)+∣D2∣∣D∣∗H(D∣A2)+∣D3∣∣D∣∗H(D∣A3)=5/15∗0.97095+5/15∗0.97095+5/15∗0.72193=0.88794H(D|A=年龄)=p_1*H(D|A_1)+p_2*H(D|A_2)+p_3*H(D|A_3)\\[2ex] =\frac{|D_1|}{|D|}*H(D|A_1)+\frac{|D_2|}{|D|}*H(D|A_2)+\frac{|D_3|}{|D|}*H(D|A_3)\\[2ex]=5/15*0.97095+5/15*0.97095+5/15*0.72193\\[2ex] =0.88794$

和经验熵相比，经验条件熵更复杂难懂些。笔者在这里对经验条件熵做一个简单的解释：
依据某个feature比如年龄的不同取值，将原始dataset分成多个subDataset即青年、中年、老年数据集, 则
H(D|A是年龄) =
青年数据集占比 * H(青年数据集)
+中年数据集占比 * H(中年数据集)
+老年数据集占比 * H(老年数据集)