机器学习笔记-决策树和随机森林

最新推荐文章于 2024-09-07 23:39:22 发布

原创最新推荐文章于 2024-09-07 23:39:22 发布 · 791 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #决策树 #随机森林

本文深入解析决策树和随机森林算法，介绍信息熵、信息增益等关键概念，探讨决策树构建过程及过拟合防止策略，同时对比不同决策树算法（如ID3、C4.5、CART）的优劣。

预备知识；
信息熵（会在决策树和随机森林中用到）
在这里插入图片描述

决策树和随机森林—邹博

决策树基本原理

决策树的依据：信息熵下降；即子结点的熵小于父节点的熵；
节点的信息熵代表了节点的不确定性程度，不确定性越小，确定性越大；
原理：决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶子节点中的实例都属于同一类。

一个例子及其分析

在这里插入图片描述

（1）特征temperature并没有出现在决策树中，也能将所有数据（14条）正确分类；结论：决策树的构造可能是选择部分特征来构造，而不是所有特征都必须要用上；
（2）Outlook=’sunny’一支中为什么要选择剩余三个特征中的humidity特征作为后续分支的条件？同理，根节点上为什么要从四个特征中选择outlook作为分支条件？
1）计算根节点的信息熵；
H(play)=-[9/14ln 9/14+5/14ln 5/14]
2）分别计算4个特征作为分支条件的条件熵；比如outlook
H(play│outlook) = 5/14H(play│outlook=’ sunny’ )+4/14H(play│outlook=’ overcast’ )+5/14*H(play│outlook=’ rainy’ )
其中，H(play│outlook=^’ sunny^’ )表示outlook=’sunny’的节点的信息熵；同理，其它特征的条件熵也能计算；
3）H(Y)-H(Y│f_i )=g(y,f_i)称为信息增益，哪个特征使得信息增益最大，就作为当前决策树的分支条件；信息增益就是该案例的目标函数；