预备知识;
信息熵(会在决策树和随机森林中用到)

决策树和随机森林—邹博
决策树基本原理
决策树的依据:信息熵下降;即子结点的熵小于父节点的熵;
节点的信息熵代表了节点的不确定性程度,不确定性越小,确定性越大;
原理:决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类。
一个例子及其分析


(1)特征temperature并没有出现在决策树中,也能将所有数据(14条)正确分类;结论:决策树的构造可能是选择部分特征来构造,而不是所有特征都必须要用上;
(2)Outlook=’sunny’一支中为什么要选择剩余三个特征中的humidity特征作为后续分支的条件?同理,根节点上为什么要从四个特征中选择outlook作为分支条件?
1)计算根节点的信息熵;
H(play)=-[9/14ln 9/14+5/14ln 5/14]
2)分别计算4个特征作为分支条件的条件熵;比如outlook
H(play│outlook) = 5/14H(play│outlook=’ sunny’ )+4/14H(play│outlook=’ overcast’ )+5/14*H(play│outlook=’ rainy’ )
其中,H(play│outlook=^’ sunny^’ )表示outlook=’sunny’的节点的信息熵; 同理,其它特征的条件熵也能计算;
3)H(Y)-H(Y│f_i )=g(y,f_i)称为信息增益,哪个特征使得信息增益最大,就作为当前决策树的分支条件;信息增益就是该案例的目标函数;
信息增益
哪一个特征能够使得信息增益最大,就选择哪个特征作为当前的分类依据;




信息增益的进一步改进(信息增益率和Gini系数)

(1)不用信息增益(ID3)作为目标函数,用信息增益率(C4.5)度量更合理;

(2)CART采用Gini系数;

决策树的过拟合

防止过拟合(手段1) - 剪枝
(1)预剪枝;
比如,指定树的深度;指定叶子节点上样本个数不低于多少个;指定一个节点上的信息熵不低于多少等等
(2)后剪枝;



防止过拟合(手段2) - 随机森林
多个决策树的综合;bagging就是从所有样本中进行随机重采样,构造m棵决策树,就能形成随机森林;


随机森林处理回归和分类问题举例
回归问题;
如下,若干条灰色的线,就是随机重采样得到的决策树,从而实现的回归模型,再每个点处取平均就能获得较好的回归模型;

分类问题;



样本不均衡– 正负例不均衡处理方法

随机森林计算样本相似度和特征重要度


异常检测;深度随机森林-周志华

本文深入解析决策树和随机森林算法,介绍信息熵、信息增益等关键概念,探讨决策树构建过程及过拟合防止策略,同时对比不同决策树算法(如ID3、C4.5、CART)的优劣。
784

被折叠的 条评论
为什么被折叠?



